Analyse bioinformatique du séquençage métagénomique viral

La métagénomique virale est l'étude des virus dans des échantillons environnementaux et biologiques en utilisant le séquençage de nouvelle génération qui génère des ensembles de données très volumineux. La métagénomique virale analyse les séquences virales pour déduire l'impact des virus sur l'environnement de la santé humaine. Contrairement à le séquençage d'amplicon, la métagénomique obtient et examine le matériel génétique directement à partir d'échantillons environnementaux, ce qui a conduit à une nouvelle compréhension de la diversité et de la fonction du monde microbien. L'analyse bioinformatique est l'une des procédures les plus importantes à cet effet.

Pipeline bioinformatique pour la métagénomique virale

Le pipeline bioinformatique général pour la métagénomique virale comprend le contrôle de qualité et le filtrage, l'assemblage, ainsi que la classification taxonomique et le regroupement. Il existe deux types de méthodes pour la classification taxonomique, à savoir les méthodes basées sur la similarité et les méthodes basées sur la composition. Un exemple représentatif de classification taxonomique basée sur la similarité est les recherches NCBI BLAST. Les méthodes de classification taxonomique qui explorent la composition du génome, telles que la teneur en GC ou l'utilisation d'oligomères courts (k-mers), sont connues sous le nom de méthodes basées sur la composition, qui peuvent être utilisées pour la classification taxonomique de séquences n'ayant pas d'homologues ou étant très divergentes par rapport aux séquences dans les bases de données. Comparées aux méthodes basées sur la similarité, les méthodes basées sur la composition ont une précision inférieure et dépendent largement de la longueur des séquences.

Pipeline bioinformatique pour la métagénomique virale Figure 1. Pipeline bioinformatique pour la métagénomique virale (Bzhalava et Dillner 2013).

Nous présentons ici deux pipelines bioinformatiques disponibles pour une analyse complète du virome : VIROME et Metavir 2.

VIROME

La Ressource d'Informatique Virale pour l'Exploration du Métagénome (VIROME), décrite pour la première fois par Wommack et al. (2012), met l'accent sur la classification du séquençage du métagénome viral (cadres de lecture ouverts prévus, ORFs) basée sur l'analyse d'homologie. L'analyse VIROME repose sur trois bases de données de séquences de protéines sujettes, cinq bases de données annotées (SEED, ACLAME, COG, GO et KEGG), la base de données UniVec et CD-Hit 454. L'algorithme CD-Hit 454 est utilisé pour rechercher des bibliothèques de séquences à partir du pyroséquenceur 454 pour des séquences dupliquées fausses. La base de données de peptides UniRef 100 est utilisée pour détecter les séquences de métagénome viral ayant une similarité avec des protéines connues. La base de données de peptides MetaGenomes On-line (MGOL) contient des séquences de peptides prévues provenant de 137 bibliothèques de métagénomes, qui est utilisée pour détecter la similarité avec des séquences environnementales inconnues.

Le pipeline VIROME implique le contrôle de qualité, l'analyse des séquences, la caractérisation fonctionnelle et taxonomique des ORFs, la classification des ORFs et la caractérisation environnementale. Chaque séquence est d'abord coupée pour la qualité et débarrassée des séquences de liaison, d'adaptateur, de code-barres et probablement des lectures dupliquées fausses. Par la suite, les lectures de séquençage ayant une homologie significative avec une séquence d'ARN ribosomal (rRNA) sont supprimées en utilisant BLASTN contre la base de données sujet rRNA. tRNAscan-SE est utilisé pour dépister la présence de tRNAs et d'ORFs en utilisant MetaGene Annotator. Un fichier multi-fasta de séquences de peptides est ensuite construit et analysé en utilisant BLASTP contre les bases de données UniRef 100 et MGOL. Les peptides prévus peuvent également être caractérisés en utilisant les bases de données de séquences annotées. En fonction des résultats des analyses BLASTP, chaque peptide de métagénome viral prévu est divisé en sept classes VIROME (Figure 3).

Aperçu du diagramme de flux du pipeline bioinformatique VIROME Figure 2. Aperçu du diagramme de flux du pipeline bioinformatique VIROME (Wommack et al. 2012)

Aperçu du diagramme de flux du schéma de classification VIROM pour les peptides environnementaux Figure 3. Aperçu du diagramme de flux du schéma de classification VIROM pour les peptides environnementaux (Wommack et al. 2012).

Metavir 2

Metavir 2, décrit par Roux et al. (2014), est le premier outil conçu pour une analyse complète des séquences de virome assemblées. Metavir est dédié à l'analyse des viromes téléchargés par les registres, soit un virome composé de lectures brutes, soit des viromes assemblés en contigs. De nombreux logiciels sont disponibles pour l'étape d'assemblage : Newbler peut être utilisé pour les données 454, et les données Illumina peuvent être assemblées en utilisant SOAP, MetaVelvet, OptiDBA et Idba-ud.

  • Pour les lectures non assemblées

Les lectures de virome sont d'abord comparées aux génomes viraux complets de la base de données RefSeq Virus en utilisant BLAST, afin de déterminer la composition taxonomique. Le biais de distribution de fréquence des k-mers est calculé pour tous les ensembles de données sans restriction de taille. Des analyses phylogénétiques sont effectuées avec FastTree. En fonction des résultats des hits BLAST contre RefseqVirus, deux types de graphiques de recrutement peuvent être réalisés : un nuage de points et un histogramme.

  • Pour les viromes assemblés

Pour les viromes assemblés, les ORFs sont d'abord prévus par MetaGeneAnnotator. Tous les ORFs traduits prévus sont ensuite comparés aux bases de données, y compris la base de données de protéines RefseqVirus en utilisant BLASTp, et la base de données PFAM des domaines protéiques en utilisant HMMScan.

Une carte génomique interactive peut être créée pour l'affichage des contigs en utilisant RaphaelSVG et le plugin Raphael-zpd. Les similarités entre les contigs et entre les contigs et les génomes viraux peuvent être visualisées sous la forme d'un réseau interactif créé avec Cytoscape-web. Associé à ce réseau, la colinéarité entre les contigs et les génomes ou d'autres contigs peut être affichée à travers RaphaelSVG et Raphael-zpd.

Références :

  1. Wommack K E, Bhavsar J, Polson S W, et al. VIROME : une procédure opérationnelle standard pour l'analyse des séquences de métagénome viral. Standards in genomic sciences, 2012, 6(3) : 421.
  2. Bzhalava D, Dillner J. Bioinformatique pour la métagénomique virale. J Data Mining Genomics Proteomics, 2013, 4(3) : 2153-0602.1000134.
  3. Roux S, Tournayre J, Mahul A, et al. Metavir 2 : nouveaux outils pour la comparaison de métagénomes viraux et l'analyse de viromes assemblés. BMC bioinformatics, 2014, 15(1) : 76.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut