L'avenir du séquençage des phages : Intégration des technologies de séquençage à lecture longue et NGS

Aperçu rapide

01 Goulots d'étranglement techniques actuels et besoins de convergence 02 Stratégie d'intégration technologique et dispositif d'innovation 03 Avancées dans les scénarios d'application 04 Cartographier l'avenir de la technologie 05 Conclusion : Franchir le fossé de la matière noire des phages

L'intégration de séquençage de nouvelle génération (NGS) avec des technologies de séquençage à lecture longue s'attaque efficacement aux limitations fondamentales dans analyse du génome des phagesLes principaux défis tels que les erreurs d'assemblage dans des régions hautement répétitives, la perte de séquences terminales et les variations structurelles non détectées sont désormais surmontés de manière systématique. Cette synergie technologique propulse la recherche sur les phages dans l'« ère du génome complet », permettant une caractérisation génomique complète.

Goulots d'étranglement techniques actuels et besoins de convergence

1. Limitations du séquençage de nouvelle génération (NGS)

Malgré son utilisation généralisée en génomique, le séquençage à haut débit présente des contraintes significatives dans des scénarios spécifiques :

Limitations de l'assemblage fragmenté : Les courtes lectures NGS (généralement de 150 à 300 pb) ont du mal à assembler des régions génomiques complexes, en particulier les répétitions terminales dépassant 1 kb. Par exemple, résoudre avec précision le site cos dans les génomes de phage lambda est souvent impossible en raison de la longueur de lecture insuffisante, entraînant une mauvaise assemblage des génomes circulaires et une précision compromise.
Mutations à haute fréquence non détectées : le séquençage de nouvelle génération (NGS) échoue souvent à identifier les polymorphismes nucléotidiques simples (SNP) dans des régions à forte mutation comme ATTPATTB dans les phages lysogènes. Une profondeur et une résolution de séquençage limitées entraînent des taux de détection inférieurs à 70 %, ce qui impacte de manière significative la précision des résultats dans les études sur les phages lysogènes.
Interférence de signal de macrosample : Dans les analyses de microbiome, les séquences de phages à faible abondance sont souvent obscurcies par les signaux dominants de l'ADN hôte. Les rapports signal/bruit peuvent descendre en dessous de 1:10 000, compliquant l'interprétation des données et risquant d'obscurcir des informations écologiques et fonctionnelles clés.

2. Avancées avec les technologies de lecture longue

Séquençage à lecture longue offre des solutions puissantes aux goulets d'étranglement de l'NGS, démontrant un potentiel exceptionnel pour couvrir les répétitions, améliorer la détection des mutations et surmonter les interférences à grande échelle.

Répétitions complexes en étendue : Des technologies comme PacBio HiFi et Oxford Nanopore génèrent des lectures considérablement plus longues, permettant un assemblage précis dans des régions répétitives problématiques.
- PacBio HiFi : Produit des lectures de haute fidélité (10-25 kb, >99,9 % de précision), idéal pour les phages à forte teneur en GC (par exemple, ΦST2). Il couvre efficacement les répétitions complexes dans ces régions, contournant les erreurs d'assemblage courantes avec le séquençage de nouvelle génération (NGS).
- Oxford Nanopore : Fournit des lectures ultra-longues (100 kb+, 98-99 % de précision), particulièrement adaptées aux grands génomes comme les mégaphages (>200 kb). Cette capacité permet de résoudre efficacement des génomes avec une grande complexité structurelle.
Détection épigénétique directe : Au-delà de l'assemblage, les technologies de lecture longue détectent nativement les modifications épigénétiques (par exemple, la méthylation 5mC). Cela permet une analyse simultanée de la séquence génomique et des états épigénétiques, fournissant des informations cruciales sur les mécanismes régulateurs et la mémoire épigénétique des phages lysogènes – des informations largement inaccessibles par les techniques de lecture courte.

ONT sequencing read quality. Qualité des lectures de séquençage ONT (Lang J et al., 2022)

Pour une approche plus détaillée du séquençage des phages, veuillez vous référer à "Séquençage de nouvelle génération pour l'analyse des phages : une approche moderne.

Pour plus d'informations sur la manière de construire et d'utiliser la base de données de séquences de phages, veuillez vous référer à "Séquençage profond de bibliothèques de phages utilisant des plateformes Illumina.

Découvrez notre service →

Stratégie d'intégration technologique et plan d'innovation

À mesure que la génomique et la recherche moléculaire avancent, les approches à technique unique se révèlent souvent insuffisantes pour relever les défis complexes d'assemblage de génomes. Pour surmonter ces goulets d'étranglement, des stratégies intégrées ont émergé comme des solutions essentielles. L'assemblage hybride et les flux de travail de lecture longue de bout en bout représentent deux tendances innovantes clés.

1. Assemblage Hybride

Cette approche synergie la précision du NGS avec les capacités de scaffolding à longues lectures, permettant une reconstruction précise des régions génomiques complexes, en particulier des éléments répétitifs.

Méthodologie :
- Fondation NGS : Les lectures courtes d'Illumina offrent une grande précision d'appel des bases, essentielle pour identifier les polymorphismes nucléotidiques simples (SNP) et les petites variantes.
- Échafaudage de longues lectures : Les longues lectures d'Oxford Nanopore (ONT) ou de PacBio résolvent les variations structurelles et couvrent de vastes régions répétées inaccessibles aux technologies de courtes lectures, répondant ainsi aux lacunes d'assemblage et aux défis des séquences à faible abondance.
Innovations algorithmiques :
- HybridSPAdes : Intègre les principes des graphes de de Bruijn et Overlap-Layout-Consensus (OLC), améliorant considérablement la correction des erreurs dans les régions répétées. Cette stratégie à double graphe augmente l'efficacité d'environ 5 fois.
- Flye-Meta : Utilise un regroupement adaptatif de contigs optimisé pour les génomes de phages au sein d'échantillons macroscopiques complexes. Il récupère avec succès plus de 85 % des séquences de phages, s'avérant essentiel en microbiologie environnementale pour capturer des données de phages à faible abondance.
Validation : Une étude de 2023 publiée dans Nature Microbiology a utilisé l'assemblage hybride pour résoudre pour la première fois la région de répétition inversée de 16 kb dans le phage cyanobactérien SYN5. Cette avancée démontre une précision et une efficacité accrues pour assembler des génomes de phages très répétitifs et de grande taille.

2. Processus Longs de Bout en Bout

Ce flux de travail optimisé maximise l'utilité des longues lectures pour des échantillons de faible abondance et complexes grâce à un enrichissement ciblé, une préparation d'échantillons et une construction de bibliothèque affinée.

Stratégies d'enrichissement ciblées :
- Capture CRISPR-Cas9 : Utilise le ciblage guidé par l'ARNg de gènes conservés (par exemple, les ADN polymérases) pour un enrichissement spécifique des séquences. L'efficacité dépasse généralement 95 %, ce qui est idéal pour les gènes de phages avec des marqueurs connus.
- Tri de cytométrie en flux : Combine la séparation physique avec l'amplification du génome entier Phi29. Gère efficacement les échantillons à très faible concentration (par exemple, jusqu'à 0,1 ng), fournissant suffisamment de matériel pour le séquençage.
Optimisation de la construction de bibliothèques :
- Ligation SQK : Minimise les dommages à l'ADN lors de la ligation des adaptateurs, préservant les structures terminales critiques (par exemple, les ITR). Cette intégrité est essentielle pour un assemblage de génomes de phages à longue lecture de haute fidélité.
- Fragmentation basée sur la transposase : Associée au séquençage à long terme, cette méthode réduit considérablement la formation de lectures chimériques (fusions spurielles lors de l'assemblage). Elle montre une réduction rapportée de 90 % des taux de chimères, améliorant ainsi de manière significative la qualité de l'assemblage.

Étude de cas : Percée dans le typage des pathogènes

Contexte de l'épidémie : Une épidémie d'Enterococcus faecium ST117 résistant à la vancomycine (ERV) s'est produite dans un hôpital néerlandais. Le typage NGS initial a révélé une faible homologie entre les souches (>100 différences de SNP de base), ne parvenant pas à identifier la source de l'infection dans les 48 heures en utilisant des méthodes conventionnelles.
Avantage 1 : Résolution Structurelle Rapide
- Détection de longues lectures : le séquençage MinION a identifié une inversion prophagique φefcii cohérente (région de répétition attL-attR) dans tous les isolats en moins de 6 heures.
- Cohérence structurelle : L'orientation d'inversion était identique à 100 % entre les échantillons (probabilité < 10⁻⁵), confirmant une chaîne de transmission commune.
- Validation NGS : Le séquençage Illumina ultérieur a détecté une variation minimale (≤2 SNPs principaux) et a exclu la recombinaison génétique.
- Signification des percées : Le NGS seul ne peut pas résoudre la région répétée de 12 kb de φefcii en raison de lectures courtes (150 pb), entraînant des erreurs d'assemblage. La technologie de lecture longue a capturé directement les caractéristiques structurelles complètes, réduisant le temps de traçabilité de 80 %.
Avantage 2 : Suivi du transfert de gènes de résistance
- Découverte en long format : Le cluster de gènes de résistance vanA, flanqué par la transposase IS1216, a été localisé au sein du prophage φefcii de la souche responsable de l'épidémie.
- Validation NGS : La cartographie de la densité des SNP a confirmé la co-localisation universelle (>99 % de conservation de la séquence flanquante) de vanA avec le phage dans tous les cas.

ConclusionCela démontre que le transfert horizontal médié par les phages de vanA entre les services était le mécanisme de transmission – et non des événements évolutifs indépendants.

Concatenated prophage sequences identified in UMCG isolates. Séquences de prophages concaténées identifiées dans les isolats UMCG (Lisotto P et al., 2021)

Étude de cas : Assemblage du métagénome du microbiome de démarrage du fromage

Introduction : Cette étude pionnière a permis l'assemblage complet de toutes les souches dominantes au sein du métagénome à faible complexité des cultures de départ de lactosérum naturel de Gruyère suisse (NWC). Cette avancée a été rendue possible grâce à une stratégie de séquençage multi-plateforme, offrant des aperçus fonctionnels sans précédent.
Plateforme technologique intégrée et contributions :
- PacBio Sequel : Génération de longues lectures (~15-20 kb) couvrant des régions répétitives, permettant l'assemblage complet des chromosomes bactériens, des prophages et des plasmides.
- Oxford Nanopore : Fournit des lectures ultra-longues (>100 kb) résolvant des variations structurelles à grande échelle (par exemple, des inversions de sites d'insertion de phages).
- Illumina MiSeq : A fourni des lectures courtes à haute précision (150 pb) pour la correction d'erreurs des assemblages de longues lectures (réduisant les taux d'erreur de base à <0,01 %).
- Méthodologie de base : Les assemblages intégrés PacBio/ONT ont été polis à l'aide de données Illumina, produisant des génomes assemblés de métagénomes (MAGs) au niveau de la carte complets.
Avantage 1 : Surmonter les limitations de l'assemblage traditionnel (Contributions principales en lecture longue)
- Résolution des régions répétitives : Les longues lectures ont directement couvert des régions répétées à copies multiples (par exemple, les opérons 16S rRNA), éliminant ainsi les erreurs d'identification des souches causées par la fragmentation des courtes lectures (par exemple, la distinction des souches de L. helveticus).
- Analyse de la variation structurelle : Histoires d'interaction phage-hôte capturées avec précision, attestées par une complémentarité exacte entre les espaces CRISPR et les protospacers des phages (par exemple, correspondances à 100 %).
Avantage 2 : Précision et Validation (Contribution Principale des Courtes Lectures)
- Contrôle du taux d'erreur : Le polissage Illumina a réduit les erreurs de base dans les assemblages ONT/PacBio de 5-15 % à <0,01 %, respectant les normes du génome de référence.
- Calibration d'abondance : biais corrigés inhérents à la préparation de bibliothèques à longues lectures (par exemple, biais de fragmentation). L'analyse MetaPhlAn2 des données Illumina a validé la véritable abondance des espèces (par exemple, S. thermophilus ajusté de 51 % à 58 %).
Avantage 3 : Profondeurs fonctionnelles approfondies (Liaison technologique synergique)
- Fonction spécifique à la souche : Identification de 555 gènes uniques différenciant les souches de L. helveticus, avec validation de l'abondance de l'expression génique.
- Dynamique Phage-Hôte : Assemblage du phage lytique complet ViSo-2018a et correspondance des espaces CRISPR confirmant des événements d'infection historiques.
- Interactions métaboliques : Abondance quantifiée des gènes métaboliques, révélant un transfert horizontal médié par des plasmides symbiotiques entre S. thermophilus et L. lactis.

Resolution of two distantly related L. helveticus strains in NWC_2. Résolution de deux souches distantes de L. helveticus dans NWC_2 (Somerville V et al., 2019)

Avancées dans les scénarios d'application

1. Décoder des génomes complexes

Assemblage de phages Jumbo : Le séquençage à longues lectures permet l'assemblage complet de génomes de phages de plus de 400 kb auparavant difficiles à traiter. Cette capacité facilite la découverte d'éléments de résistance complexes tels que les clusters de gènes CRISPR-Cas (par exemple, les systèmes de type I-F).
Découverte de phages environnementaux : L'analyse de macrosamples de sol complexes utilisant des technologies de séquençage à long terme a identifié 2 148 nouveaux phages, dépassant largement les 287 détectés par le séquençage de nouvelle génération (NGS) conventionnel. Cela élargit considérablement notre compréhension de la diversité des phages environnementaux.

2. Applications en Médecine de Précision

Sécurité de la thérapie par phages : Prédire des sites d'intégration génomique sûrs (en utilisant l'analyse de la structure attL/attR) aide à éviter l'activation oncogénique lors de l'utilisation thérapeutique des phages.
Épidémiologie des gènes de résistance : Le séquençage à long read suit précisément les voies de transfert horizontal des gènes de résistance cliniquement critiques, tels que les β-lactamases, au sein des populations bactériennes.

3. Avancées en biologie synthétique

Ingénierie ciblée des phages : L'assemblage de longues lectures à haute fidélité (HiFi) soutient la redéfinition rationnelle des protéines de capside du phage M13. Cette stratégie de modification améliore considérablement l'efficacité de la délivrance ciblée de médicaments, atteignant une amélioration multipliée par huit.

Cartographier l'avenir de la technologie

1. Avancement de la cartographie génomique tridimensionnelle

L'intégration de HI-C avec Oxford Nanopore Technologies (ONT) permet une reconstruction détaillée des architectures génomiques tridimensionnelles des phages. Cette approche facilite la modélisation des dynamiques de conditionnement du génome, illustrée par des études sur les mécanismes de compression de l'ADN du phage T7.

2. Activation du séquençage direct in situ

La méthodologie FISSEQ-on-Chip capture des particules de phages individuelles directement sur un substrat de séquençage. Cette technique effectue le séquençage in situ, éliminant les étapes d'amplification et supprimant ainsi les biais associés au processus.

3. Tirer parti de l'IA pour l'analyse prédictive et la détermination structurelle

L'intelligence artificielle entraîne des avancées significatives dans la recherche sur les phages grâce à des outils spécialisés :

Phagegraph : Modèles des réseaux d'interaction complexes entre phages et hôtes, atteignant une précision de prédiction des profils d'infection supérieure à 92 %.
Deept4 : Identifie avec précision les structures terminales dans les phages de type T4 et reconstruit leurs séquences terminales avec une marge d'erreur inférieure à 0,1 kilobase.

Conclusion : Franchir la barrière de la matière noire des phages

L'intégration approfondie du séquençage à long lecture avec le séquençage de nouvelle génération (NGS) transforme fondamentalement la recherche sur les phages selon trois dimensions critiques :

Amplitude : L'analyse macro-échantillon environnementale atteint désormais une augmentation de 7,5 fois des taux de découverte de nouveaux phages.
Précision : La sensibilité de détection des variations structurelles atteint 99,3 %, permettant une caractérisation génomique très précise.
Profondeur : L'efficacité de la découverte de cibles pour les applications d'édition génétique et de développement thérapeutique est doublée.

Cette transformation suit un chemin technologique défini : Enrichissement Ciblé → Assemblage Hybride → Vérification Fonctionnelle en Trois Dimensions → Prédiction et Application Alimentées par l'IA. La mise en œuvre systématique de cette voie intégrée libère le vaste potentiel résidant dans les ressources de phages à l'échelle des trillions.

Pour plus d'informations sur la façon de construire et d'utiliser une base de données de séquences de phages, veuillez vous référer à "Construction et utilisation de bases de données de séquences de génomes de phages.

Références:

Lisotto P, Raangs EC, Couto N, Rosema S, Lokate M, Zhou X, Friedrich AW, Rossen JWA, Harmsen HJM, Bathoorn E, Chlebowicz-Fliss MA. Typage phagique in silico basé sur le séquençage long de l'Enterococcus faecium résistant à la vancomycine. BMC Genomics. 2021 23 oct;22(1):758.
Somerville V, Lutz S, Schmid M, Frei D, Moser A, Irmler S, Frey JE, Ahrens CH. L'assemblage de novo basé sur des lectures longues de samples de métagénomes à faible complexité aboutit à des génomes finis et révèle des informations sur la diversité des souches et un système de phages actif.. BMC Microbiologie2019 juin 25 ; 19(1) : 143.
Malone LM, Warring SL, Jackson SA, Warnecke C, Gardner PP, Gumy LF, Fineran PC. Un phage jumbo qui forme une structure semblable à un noyau évite le ciblage de l'ADN par CRISPR-Cas mais est vulnérable à l'immunité basée sur l'ARN de type III.. Nat Microbiol. Jan 2020;5(1):48-55.
Lang J, Li Y, Yang W, Dong R, Liang Y, Liu J, Chen L, Wang W, Ji B, Tian G, Che N, Meng B. Analyse génomique et du résistome de la souche Alcaligenes faecalis PGB1 par les technologies Nanopore MinION et Illumina.. BMC Genomics2022 Avr 20;23(Suppl 1):316.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés