En tant qu'entités biologiques les plus abondantes de la Terre, les bactériophages (virus infectant les bactéries) jouent des rôles essentiels dans l'écologie microbienne, la recherche sur la pathogénèse et les applications thérapeutiques. La haute capacité de traitement Séquençage du génome de phages a rapidement généré d'énormes ensembles de données de matériel génétique de phages. Pour donner un sens à cette richesse d'informations, les bases de données de séquences—telles que PhageScope et PhagesDB—sont indispensables pour stocker, annoter et visualiser les données génomiques. En revanche, à mesure que ces bases de données continuent d'intégrer de nouvelles séquences de haute qualité, elles renforcent encore le pouvoir et la précision des analyses basées sur le séquençage, formant un cycle vertueux qui sous-tend la génomique moderne des phages.
Aperçu de la base de données PhageScope (Wang RH et al., 2024)
Construction de la base de données du génome des bactériophages
1. Le défi central : Pourquoi nous avons besoin de normes strictes
Imaginez essayer de rassembler une bibliothèque mondiale où chaque livre est dans une langue et un format différents. C'était l'état des données sur les phages. Construire une base de données fiable nécessite une approche rigoureuse et multi-niveaux pour standardiser les informations provenant de sources diverses :
2. Sources d'acquisition de données diverses
| Type de source |
Caractéristiques clés |
| Intégration de base de données publique |
Sources NCBI GenBank/RefSeq/ENA ; nécessite un filtrage spécifique aux phages. |
| Études métagénomiques |
Reconstruction des génomes viraux à partir d'échantillons environnementaux ou de tissus hôtes complexes. |
| Isolats de laboratoire |
Génomes de phages cultivés avec validation expérimentale |
| Soumissions de génomes préliminaires |
Séquences incomplètes hébergées temporairement avec des exigences de complétion |
2. Normes de traitement spécifiques à la source
Bases de données publiques
- Filtrage : Des filtres taxonomiques automatisés extraient les entrées de phages.
- Niveau de conformité :
- Circulé + annoté
- Brouillon de haute qualité : N50 > 50 kb
- Brouillon : N50 > 10 kb
- Segments non assemblés
- Dé-duplication : clustering CD-HIT-EST (seuil d'identité de 99 %)
vMAGs métagénomiques
- Pipeline d'identification :
- VirSorter2 (basé sur des marqueurs)
- DeepVirFinder (prédiction k-mer/IA)
- vRime (binnage par échantillonnage croisé)
- Seuils de QC : Vérifié par CheckV ≥50% de complétude + ≤10% de contamination
Isolats de laboratoire
- Exigences de soumission :
- Documentation de la souche hôte (par exemple, numéro ATCC)
- Vérification structurelle EM
- Validation expérimentale (plaques/courbes de croissance)
- Traitement prioritaire : Révision accélérée et affichage en vedette
Soumissions de projet
- Statut provisoire : ID temporaire avec un délai d'achèvement d'un an
- Incitations à l'assemblage : Préférence pour les soumissions hybrides Nanopore+Illumina
- Non-conformité : rétrogradation automatique au statut "Obsolète"
Chaque source subit un traitement spécifique et des contrôles de qualité stricts pour garantir qu'elle répond à un niveau défini, allant de "Complet" à "Brouillon", avant d'entrer dans la base de données.
La salle des machines : Comment les données sont traitées et annotées
Une fois collectées, les données doivent être nettoyées, standardisées et interprétées.
1. Contrôle de qualité rigoureux :
Chaque génome est soumis à un processus de validation en plusieurs étapes pour vérifier son intégralité et éliminer toute ADN contaminant provenant des bactéries hôtes ou d'autres organismes.
- Outils d'évaluation :
- CheckV : Quantifie l'exhaustivité (%) et la contamination (%)
- BUSCO (ensemble de gènes viraux) : Évalue la préservation des gènes de base.
- Critères de certification pour le statut "Complet" :
- Chevauchement terminal ≥10 pb
- ≥90% de complétude CheckV
- Présence de ≥4 gènes viraux essentiels (par exemple, sous-unité large de la terminase, protéine de capside)
Remarque : Les entrées Draft/MAG doivent afficher de manière proéminente les métriques d'intégrité/de contamination.
2. Étiquetage standardisé :
Chaque séquence est accompagnée de métadonnées cohérentes et riches, telles que la bactérie hôte, les coordonnées GPS de son emplacement et la date d'échantillonnage. Cela transforme une séquence brute en une histoire biologique significative.
- Exigences du format d'en-tête FASTA :
- >IdentifiantBaseDeDonnées|Genre_Hôte|SourceD'Isolation|Date[AAAA-MM-JJ]
- >PhageDB_KT003|Pseudomonas|Sédiment_marin|2023-05-17
3. Normes minimales de métadonnées
| Type de champ |
Exigences |
| Obligatoire |
Taxonomie des hôtes (niveau du genre), coordonnées GPS, date d'échantillonnage |
| Recommandé |
Paramètres environnementaux (pH/température), profondeur de séquençage ≥50×, outils d'assemblage (par exemple, SPAdes v3.15.5) |
4. Protocole de Contrôle de la Contamination
- Filtration en trois étapes :
- Dépistage primaire : Éliminer les séquences d'origine hôte (par exemple, l'ARNr 16S) via l'alignement avec la base de données NT.
- Classification approfondie : Éliminer les contigs avec plus de 5 % de correspondances non virales en utilisant Centrifuge.
- Purification Ciblée : Éliminer les fragments résiduels de l'hôte avec des bases de données k-mer (HostCleanse)
Comparaison des principales bases de données de phages
| Nom de la base de données |
Fonctionnalités principales |
Scénarios d'application |
| PhageScope |
Intègre 15 outils analytiques, prend en charge l'annotation automatisée, la génomique comparative et la visualisation (par exemple, des cartes génomiques circulaires). |
Exploitation des facteurs de virulence, dépistage des cibles pour la thérapie par phages |
| SEA-PHAGES/PhagesDB |
Se concentre sur les actinophages, combiné avec des programmes éducatifs ; l'outil pdm_utils prend en charge la gestion de base de données MySQL pour des mises à jour dynamiques. |
Enseignement et recherche, itération d'annotation du génome |
| MGV |
Base de données du virome intestinal humain contenant 189 680 génomes viraux couvrant 54 118 vOTUs avec une précision d'association hôte de 81 %. |
Étude des interactions entre le microbiote intestinal et les phages |
| PIB |
Catalogue 142 809 génomes de phages intestinaux non redondants et a découvert le nouveau taxon "Gubaphage". |
Analyse métagénomique des maladies (par exemple, maladie inflammatoire de l'intestin) |
Des données brutes à des informations fiables : une brève description des pipelines de contrôle de la qualité et de normalisation.
1. Prédiction des éléments fonctionnels clés
- Identification des tRNA : tRNAscan-SE v2.0 (paramètres -B -O)
- Détection de l'ARNr : Barrnap v0.9 (mode virus : --vir)
- ARN non codants : Infernal + Rfam 14.0
- Prédiction ORF :
- Prodigal v2.6 (mode procaryote : -p meta)
- MetaGeneMark v4.0 (validé par croisement)
- Seuil de rétention : CDS ≥30 acides aminés avec un codon de départ valide (ATG/GTG)
2. Protocole d'annotation fonctionnelle
Système de missions par niveaux
- Annotation principale : Diamond BLASTP vs. PHROGS (valeur e ≤1e⁻⁵, couverture ≥70%)
- Annotation secondaire : Analyse de domaine InterProScan (Pfam/SUPERFAMILY)
- Annotation tertiaire :
- Attribution de termes GO basée sur la structure par DeepFri
- Résolution de conflits : PHROGs > InterPro > hiérarchie UniProt
3. Prédiction des caractéristiques génomiques intégrées
| Type de fonctionnalité |
Outil/Méthode |
Spécifications clés |
| Modules lytique/lysogénique |
Pharokka |
Cartographie de l'intégrase + site att |
| Promoteurs/Terminateurs |
BPROM (σ70) + Arnold |
Dépistage des éléments régulateurs |
| Gènes associés à l'ARNt |
Analyse de proximité génomique |
régions flanquantes ≤10 kb |
4. Analyse du système CRISPR
- Identification des spacers : CRISPRCasTyper v2.4.1
- Prédiction de cible : alignement CRISPRTargetDB
- Gènes anti-CRISPR : AcrFinder + profils HMM personnalisés
5. Flux de travail d'assurance qualité
Mise en œuvre du flux de travail
- Phase automatisée : Traitement standardisé via des gestionnaires de pipeline
- Intervention manuelle : Requise pour les caractéristiques évolutivement significatives :
- Paires phages-hôtes rapportées en premier
- Clusters de gènes non annotés (≥3 CDS inconnus consécutifs)
- Nouveaux candidats anti-CRISPR ou toxines
Architecture de métadonnées multi-niveaux pour les génomes de phages
1. Spécifications de métadonnées de base
- Mise en œuvre du stockage :
- Intégré dans les fichiers de séquence : en-têtes FASTA conformes à l'INSDC (lignes de commentaire ##)
- Stockage de base de données structuré :
| Table |
Contenu |
| Source |
Organisme hôte, source d'isolement |
| Collection |
Coordonnées GPS, date (AAAA-MM-JJ) |
| Traitement |
Protocoles de laboratoire, personnel |
| Publication |
DOI/IDs PubMed, liens de citation |
2. Extensions écologiques et phénotypiques
Système de champ dynamique (optionnel mais recommandé)
- Plage d'hôtes : hôtes vérifiés séparés par des virgules
- Salmonella enterica, Escherichia coli
- Profil lytique : paramètres quantitatifs
- format: période_latente=20min; taille_de_burst=150PFU
- Morphologie : Documentation à deux composants
- Liens vers le dépôt d'images EM
- Codes de classification ICTV (par exemple, Caudoviricetes ; Siphoviridae)
- Données de stabilité : plages de tolérance température/pH
3. Normalisation basée sur l'ontologie
- Application de vocabulaire contrôlé :
| Domaine |
Ontologie |
Exemple d'implémentation |
| Taxonomie des hôtes |
ID de taxonomie NCBI |
Escherichia coli |
| Environnement |
ENVO |
Eau riveraine |
| Méthodes expérimentales |
OBI (Ontologie pour les Investigations Biomédicales) |
OBI:0000070 → Extraction d'ADN |
Cadre d'Architecture et de Mise en Œuvre de Base de Données
Système de stockage backend
- Gestion des données hybrides :
| Type de base de données |
Fonction |
Optimisation |
| PostgreSQL |
Métadonnées de base et annotations |
Requêtes accélérées par index |
| MongoDB |
Jeux de données dynamiques (plages d'hôtes) |
Schéma flexible pour les données de laboratoire |
| Neo4j |
Réseaux d'interaction hôte-phage |
Modélisation des relations graphiques |
2. Gestion de fichiers évolutive
- Stockage de séquences : fichiers FASTA avec compression par blocs HDF5 (réduction de l'espace de 70 %)
- Optimisation de la recherche :
- Mises à jour hebdomadaires automatisées de l'index BLAST
- Shardage distribué de l'index Diamond
3. Interface Web et API
- Fonctionnalités de recherche avancées :
- Similarité de séquence : pré-sélection BLAST/BLAT + MASH
- Requêtes combinatoires (par exemple, "Terminases ET hôtes marins")
- Filtrage de l'arbre taxonomique
4. Suite de Visualisation Intégrée
| Outil |
Fonctionnalité |
Formats de sortie |
| JBrowse 2 |
Visualisation de gènes/domaine/variant |
SVG/HTML interactif |
| PhyloViz |
Cartes thermiques de la plage d'hôtes |
Rapports PDF dynamiques |
| PPanGGOLiN |
Analyse comparative des îlots génomiques |
Graphiques vectoriels + HTML |
Résumé des points clés d'innovation
- Gestion hiérarchique des données dynamiques
- Classement automatique basé sur la qualité des données (Complet/Brouillon/Déprécié)
- Établir un "jeu de données de référence en or" pour les souches de laboratoire.
- Garantie de la reproductibilité de l'ensemble du processus
- Toutes les versions de l'outil d'annotation sont solidifiées dans le conteneur Docker.
- Fournir un flux de travail. YML pour la réannotation locale de l'utilisateur.
- Capacité de récupération de pertinence multidimensionnelle
- Soutenir la requête pénétrante "Environnement → hôte → phage → fonction des gènes"
- Intégration des arbres phylogénétiques avec les données des systèmes d'information géographique
- La stratégie de la "matière noire"
- Initier la prédiction automatique de structure (AlphaFold2) pour des clusters de gènes inconnus.
- Établissement du "Répertoire des gènes orphelins de phages"
Pour une approche plus détaillée du séquençage des phages, veuillez vous référer à "Séquençage du génome des phages : Méthodes, défis et applications.
Pour voir comment la plateforme Illumina peut séquencer en profondeur des bibliothèques de phages, consultez "Séquençage profond de bibliothèques de phages utilisant des plateformes Illumina.
Comprendre le rôle des données NGS dans le contrôle de qualité des bibliothèques de phages peut être référencé.Contrôle de qualité des bibliothèques de phages par données NGS.
Alimenter la découverte : Applications clés pour les chercheurs
- Taxonomie et phylogénie de précision : Au-delà de la morphologie, les bases de données utilisent l'analyse du génome entier pour une classification précise et une cartographie évolutive à grande échelle.
- Découverte de nouveaux phages : Ils facilitent la découverte de nouveaux phages et de gènes uniques, y compris ceux pour la détermination de la gamme d'hôtes et des systèmes anti-CRISPR (Acr) novateurs, alimentant directement les programmes de découverte thérapeutique.
- Développement de la thérapie par phages : Ils servent de dépistage primaire pour identifier des candidats phages ciblant des pathogènes, prédire la gamme d'hôtes et réaliser des évaluations de sécurité critiques pour les gènes de lysogénie et de virulence.
- Analyse métagénomique : Agissant comme une référence essentielle, elles permettent aux chercheurs d'identifier et de classer des séquences virales au sein de mélanges complexes d'ADN provenant de l'intestin humain, des océans ou du sol.
Cas concret : Découverte de la diversité cachée
1. Taxonomie et Phylogénie
- Classification de précision
- Analyse de similarité du génome entier utilisant VIRIDIC (métriques standard de l'ICTV)
- Phylogénies des gènes centraux surmontant les limitations morphologiques
- Cartographie évolutive
- Reconstructions phylogénétiques à grande échelle
- Analyse des motifs de divergence à travers les taxons de phages
2. Découverte de nouveaux phages
| Approche |
Méthodologie |
| Filtrage de similarité |
Évaluation de la nouveauté basée sur BLAST |
| Profilage de la diversité |
Caractérisation du virome environnemental/spécifique à l'hôte |
| Exploration fonctionnelle des gènes |
|
- Fonctions connues : lyases, polymérases, terminasés, déterminants de la portée hôte
- Fonctions inconnues : regroupement PHROGs + identification de domaines conservés
- Systèmes CRISPR
- Correspondance des espaces hôtes (infections historiques)
- Découverte de nouveaux gènes anti-CRISPR (ACR)
3. Développement de la thérapie par phages
- Sélection des candidats : Identification de phages ciblant des pathogènes
- Prédiction de la gamme d'hôtes : Analyse des protéines de liaison aux récepteurs + corrélation des données d'infection
- Évaluation de la sécurité : dépistage des gènes de lysogénie/virulence/résistance aux antibiotiques
- Découverte de biocatalyseurs
- Enzymes thérapeutiques (endolysines)
- Polymérases d'ADN spécialisées
4. Fondation d'analyse métagénomique
- Cadre de référence
- Binning et assignation taxonomique
- Référence d'annotation fonctionnelle
- Exploration du Virome
- Études des écosystèmes :
- Microbiomes intestinaux
- Environnements marins
- Communautés du sol
5. Perspectives en génomique comparative
- Évolution Modulaire
- Analyse de conservation/recombinaison des unités fonctionnelles :
- Modules de réplication de l'ADN
- Clusters de protéines structurelles
- Systèmes d'emballage
- Machinerie de lyse des hôtes
Validation multifonctionnelle des capacités de la base de données de phages
1. Découverte et classification de nouveaux phages
- Détection à haute sensibilité : Identification de nouveaux phages de type Rhizobium RR1 avec moins de 30 % de similarité de séquence par rapport aux entrées connues via BLAST/BLAT.
- Expansion taxonomique : 733 phages catalogués dans 51 familles en utilisant le regroupement de gènes de base et les normes de l'ICTV.
2. Applications hôtes non-modèles
- Étude de cas : Banane sauvage (M. balbisiana) et génotypes rares (M. sikkimensis)
- Diversité de phages sans précédent détectée
- Capacité de base de données validée pour des systèmes hôte-phage atypiques
3. Analyse de l'interaction hôte-virus
| Trouver |
Fonction de base de données validée |
| Chevauchement minimal des communautés de phages entre les génotypes de banane |
Dépistage d'association spécifique à l'hôte |
| Liens entre les phages de Rhizobium et les endophytes |
Référencement croisé des identifiants de taxonomie (NCBI) |
4. Exploration fonctionnelle des gènes
- Détection des facteurs de virulence : Identification des fragments de gènes holin (lyse) et de toxine Shiga via l'intégration de VFDB/PHROGs.
- Potentiel thérapeutique : Découverte de phages Klebsiella avec des marqueurs de suppression de la fusariose grâce à l'analyse des métabolites antiSMASH.
5. Profilage de l'adaptabilité de niche
- Distribution spécifique des tissus
- Niche foliaire : Abondance plus élevée de phages (ENVO:00005784 "phyllosphère")
- Niche racine : Plus grande diversité (Indice de Shannon >4,2)
- Discrimination entre virus endogènes et virus transitoires
- Classé 56 souches de Badnavirus en utilisant les étiquettes "Endophyte végétal" et "Parasitisme environnemental".
6. Les lacunes de connaissance comme catalyseurs de découverte
- Déficits d'annotation
- 1 038 domaines protéiques non caractérisés révèlent de nouvelles lignées virales (Aghdam SA et al., 2023)
Chevauchement présumé des communautés de phages aux niveaux taxonomiques les plus bas (espèces ou isolats) au sein des microbiomes de l'endosphère de 6 génotypes de Musa (Aghdam SA et al., 2023)
Découvrez notre service →
Défis et orientations futures
Défis persistants
- Malgré des avancées substantielles, des limitations clés demeurent :
- Écarts de qualité des données : standardisation incohérente entre les ensembles de données
- Biais de représentation des hôtes : génomes rares provenant d'hôtes non modèles (par exemple, bactéries environnementales non cultivables)
- Barrières à l'intégration des métadonnées : Interopérabilité limitée des données contextuelles écologiques/expérimentales
- Déficits de connaissances fonctionnelles : "matière noire" virale (gènes non caractérisés) représentant plus de 70 % des ORFs prédits.
Priorités de développement stratégique
- Systèmes d'annotation intelligents
- Plateformes assistées par IA combinant :
- Pipelines de prédiction automatisées
- Interfaces de curation experte
- Atlas des interactions phages-hôtes : bases de données de la gamme d'hôtes validées expérimentalement
- Intégration des ressources multi-omiques
Accès unifié à :
| Type de données |
Application |
| Transcriptomique |
Dynamique d'expression |
| Protéomique |
Vérification structurelle |
| Métabolomique |
Dépistage du potentiel thérapeutique |
- Mise en œuvre de l'IA prédictive
- Modèles d'apprentissage profond pour :
- Élucidation de la fonction des gènes
- Projection de la plage d'hôtes
Conclusion
Les bases de données des génomes de phages ont fondamentalement transformé la recherche virale en :
- Résoudre les défis de gestion des données
- Permettre une organisation efficace des données de séquence en croissance exponentielle.
- Accélérer les applications de découverte
- Servant d'infrastructure critique pour :
- Nouvelles thérapies antibactériennes
- Outils de biologie synthétique
- Modélisation écologique
À mesure que les technologies de séquençage avancent et que les ensembles de données mondiaux s'élargissent, ces répertoires resteront indispensables pour libérer le plein potentiel biotechnologique des phages. Leur évolution continue promet des aperçus sans précédent sur la diversité virale, les mécanismes d'adaptation des hôtes et les voies d'ingénierie thérapeutique.
Accès à la base de données liée :
PhageScope : Désolé, je ne peux pas accéder à des liens externes.
PhagesDB : https://phagesdb.org
MGV : Désolé, je ne peux pas accéder aux liens ou aux contenus externes.
PhageScope :Désolé, je ne peux pas accéder aux sites Web.
Les gens demandent aussi
Quelle est la base de données pour les bactériophages ?
Bienvenue sur PhageScope ! PhageScope est une base de données en ligne sur les bactériophages qui propose des annotations complètes, y compris l'évaluation de la complétude, l'annotation phénotypique, l'annotation taxonomique, l'annotation structurelle, l'annotation fonctionnelle et la comparaison de génomes.
Qu'est-ce qu'un pham dans les phages ?
Les gènes de mycobactériophages liés les uns aux autres peuvent être regroupés en phamilies (phams) et les relations mosaïques peuvent être analysées et représentées à l'aide de cartes génomiques annotées par pham et de cercles de phamily qui montrent les motifs des phages contenant des membres de phams particuliers.
Qu'est-ce que l'ICTVdB, la base de données universelle des virus ?
La base de données du Comité international de taxonomie des virus est un outil de recherche taxonomique universellement accessible pour comprendre les relations entre tous les virus.
Références :
- Fujimoto K. Thérapie par phages basée sur des données de métagénome pour les maladies médiées par des bactéries intestinales. Biosciences Microbiote Alimentation Santé2023 ; 42(1) : 8-12.
- Wang RH, Yang S, Liu Z, Zhang Y, Wang X, Xu Z, Wang J, Li SC. PhageScope : une base de données de bactériophages bien annotée avec des analyses et des visualisations automatiques. Acides Nucleiques Res2024 5 janv;52(D1):D756-D761.
- Aghdam SA, Lahowetz RM, Brown AMV. Viromes endophytiques divergents et répertoires de génomes de phages parmi les espèces de bananier (Musa). Front Microbiol. 9 juin 2023 ; 14:1127606.
- Gauthier CH, Cresawn SG, Hatfull GF. PhaMMseqs : un nouveau pipeline pour construire des familles de gènes de phages en utilisant MMseqs2. G3 (Bethesda). 2022 Nov 4;12(11):jkac233.
- Wang RH, Yang S, Liu Z, Zhang Y, Wang X, Xu Z, Wang J, Li SC. PhageScope : une base de données de bactériophages bien annotée avec des analyses et des visualisations automatiques. Acides Nucleiques Res2024 5 janv;52(D1):D756-D761.