Choisir les bons livrables T2T : Sorties d'assemblage, polissage, phasage et formats de données (RUO)
Introduction
"Le mauvais format de livrable peut ajouter des semaines de reformatage — choisissez judicieusement dès le départ." Pour les projets de petits génomes (<500 Mb) poursuivant assemblages telomère-à-télomère (T2T)Le contrat de livraison que vous définissez dès le premier jour déterminera si l'analyse en aval commence demain ou dans trois semaines après des conversions ad hoc. Ce guide pratique explique comment choisir le bon mélange de résultats d'assemblage, de polissage, de phasage et de formats de données afin que vos livrables soient immédiatement utilisables, auditables et prêts à être archivés.
Si vous avez besoin d'un aperçu concis de ce que T2T implique (télomères, centromères et répétitions délicates) et pourquoi la complétude modifie la biologie en aval, commencez par le contexte de la série : Séquençage de télomère à télomère expliqué. Ici, nous nous concentrons sur les décisions qui comptent pour les formats de données de phasage d'assemblage des livrables T2T dans des contextes RUO : contigs versus sorties au niveau chromosomique (et T2T) ; cibles de polissage au niveau de la base qui répondent aux attentes de recherche et de publication ; stratégies de phasage (trio, Hi-C, Strand-seq) pour les petits génomes.
Ce que vous obtiendrez de cet article :
- Gates d'acceptation clairs et actionnables pour les livrables T2T adaptés aux petits génomes (<500 Mb), y compris les seuils de QV Merqury, les cibles de complétude BUSCO et les vérifications QUAST, avec des conseils sur l'interprétation et les pièges courants.
- Directives pratiques pour les pipelines et squelettes de commande pour hifiasm et Verkko dans des scénarios trio, Hi-C et Strand-seq, ainsi que des séquences de polissage recommandées et des étapes d'évaluation Merqury/BUSCO/QUAST.
- Un ensemble de livrables recommandé et une disposition de répertoire/manifeste qui minimisent le reformatage en aval : FASTA par haplotype (+.fai), GFA/GFA.gz compressé, AGP, FASTA/GFF3 masqué souplement lorsque pertinent, indices, sommes de contrôle et un README de provenance.
- Deux exemples concrets de flux de travail (un microbe de 50 Mo et un organisme modèle de 400 Mo) avec les entrées, sorties et résultats de contrôle qualité attendus pour vous aider à définir les décisions de calcul, de couverture et de filtrage.
- Conseils pratiques sur quand délivrer des résultats graphiques par rapport à des résultats linéaires, comment valider l'exhaustivité des phases, et un court exemple de fournisseur montrant un modèle de transfert de niveau D (T2T complet) pour le cadrage.
Figure 1 — Assemblage diploïde résolu par haplotype (créé par soi-même). Légende : bleu = haplotype A, orange = haplotype B ; caps télomériques aux extrémités ; domaines centromériques ; blocs phasés. Cette image illustre pourquoi un transfert T2T inclut souvent un FASTA par haplotype ainsi qu'un graphique GFA conservant les chemins alternatifs.
Définitions des livrables principaux et attentes en matière de format de fichier
En pratique, les livrables se situent sur un spectre de continuité : un contig est une séquence ininterrompue produite à partir de lectures chevauchantes ; un échafaudage ordonne et oriente les contigs en utilisant des liens à longue portée et peut contenir des séquences de lacunes (N) ; une assemblage au niveau des chromosomes a des échafaudages ancrés aux chromosomes attendus mais peut encore contenir des lacunes ; et un assemblage de télomère à télomère (T2T) est une séquence au niveau des chromosomes sans lacunes, de bout en bout, qui inclut des répétitions télomériques canoniques et résout les centromères et d'autres grandes répétitions. Aperçu T2T de Genome.gov et la littérature sur l'assemblage sans lacunes (Koren et al., 2024) (voir des exemples dans les récents rapports T2T sur les souris et les plantes). Ces distinctions sont importantes pour les livrables car certaines analyses en aval nécessitent des chromosomes linéaires et sans lacunes (publication/étalonnage), tandis que d'autres bénéficient des informations de branchement plus riches préservées dans un graphe d'assemblage.
Pour les projets T2T à génome réduit, nous recommandons de fournir à la fois des représentations linéaires et graphiques afin que les utilisateurs puissent choisir la vue qui correspond à leur flux de travail : fournir des fichiers FASTA par haplotype (hap1.fa, hap2.fa, compressés et indexés) en tant que séquences canoniques ; inclure le graphe d'assemblage au format GFA ou GFA.gz pour préserver les chemins alternatifs et les répétitions non résolues ; ajouter un fichier AGP pour documenter les relations entre les échafaudages et les contigs ainsi que les tailles des lacunes pour les soumissions d'archives ; et livrer des fichiers d'annotation au format GFF3 (ou GTF) lorsque l'annotation structurelle est incluse. Ces formats s'alignent sur les pratiques de la communauté et les exigences d'archivage (voir le Spécification AGP du NCBI et la spécification GFA maintenue par la communauté).
Figure 2 : Pipeline T2T de bout en bout pour les petits génomes (<500 Mb). Les entrées à gauche alimentent la construction du graphe d'assemblage et les modules de phasage ; les étapes de polissage, de contrôle qualité et d'emballage créent le lot livrable (FASTA par haplotype, GFA, AGP, rapports de contrôle qualité). Les couvertures attendues et les plages de QV cibles sont indiquées en encadrés pour chaque type de données.
Enfin, considérez le bundle de fichiers comme un seul transfert : incluez les fichiers d'index (.fai, .gzi le cas échéant), les sommes de contrôle, un README décrivant les versions des outils et les paramètres, et un bundle de contrôle qualité (QV de k-mer Merqury et graphiques de spectres, résumé BUSCO, et un rapport QUAST). La section suivante détaille les seuils d'acceptation pratiques (seuils QV Merqury, complétude BUSCO, et métriques QUAST) et comment les interpréter pour les petits génomes.
Merqury QV et comment l'utiliser pour les portes d'acceptation.
Merqury rapporte une valeur de qualité de consensus sans référence (QV) en comparant les k-mers dérivés de vos lectures brutes aux k-mers observés dans l'assemblage et en convertissant le taux d'erreur inféré en un score sur l'échelle Phred (QV = −10·log10(taux d'erreur)). Pour une référence pratique et des détails sur la méthode, voir Formenti et al., Merfin/Merqury (2022), qui décrit le flux de travail k‑mer (meryl → merqury) et l'interprétation des résultats, y compris les graphiques de spectres qui révèlent des effondrements, des duplications et du contenu manquant.
Seuils pratiques pour les projets T2T à petit génome
- Utiliser QV ≥ 40 comme une porte d'acceptation de recherche conservatrice (≈1 erreur par 10 000 pb) ; viser un QV ≥ 50 lors de l'emballage des assemblages pour publication ou étalonnage de méthode (≈1 erreur par 100 000 pb). De nombreux projets récents basés sur HiFi T2T rapportent un QV50+ après polissage, mais les cibles QV doivent être évaluées en parallèle avec les métriques BUSCO et structurelles plutôt que traitées isolément. Des notes pratiques sur la procédure et des exemples de squelettes de commandes Merqury sont résumés dans le tutoriel QC d'assemblage du projet Galaxy (2025) — voir Projet Galaxy, QC d'assemblage (2025).
Interpréter le QV dans son contexte et les mises en garde courantes.
QV est le plus informatif lorsqu'il est associé à la complétude des k-mers et aux graphiques spectra-cn/asm : un QV élevé avec une faible complétude des k-mers indique une séquence manquante ; un QV élevé avec des spectres anormaux peut signaler des répétitions effondrées ou de fausses duplications. Pour les génomes petits et hétérozygotes, les k-mers parentaux (trio) ou un ensemble de k-mers à haute précision améliorent la fiabilité du QV. Il est toujours recommandé de rapporter le QV de Merqury aux côtés des résumés BUSCO (choix de la lignée noté) et QUAST/QUAST-LG ; renvoyez le lecteur aux critères d'acceptation QC détaillés dans la section des métriques QC pour des seuils exploitables et des étapes de dépannage d'exemple (voir /t2t-assembly-qc-metrics.html).
Stratégie de polissage et choix d'outils pratiques
Pour un livrable T2T à petit génome, considérez le polissage comme un pipeline dépendant du type de données et basé sur des preuves, plutôt que comme une étape universelle. Pour les assemblages PacBio HiFi, commencez par le polissage recommandé par l'assembleur (flux de travail Arrow/ccs ou consensus interne de hifiasm), puis appliquez un passage sensible aux répétitions tel que NextPolish2 pour corriger les homopolymères résiduels et les erreurs associées aux répétitions ; évaluer chaque cycle avec des vérifications de k-mers et rapporter le QV de Merqury après chaque étape majeure de polissage.Formenti et al., Merfin/Merqury, 2022; NextPolish2, 2024). Un squelette HiFi commun est : aligner les lectures HiFi → exécuter Arrow/consensus → NextPolish2 → polissage optionnel des courtes lectures (Pilon ou Polypolish) si des données Illumina à haute couverture existent. Exemples de commandes (conceptuelles) :
- Aligner : pbmm2 align --sort hifi.bam assembly.fa > aligned.bam
- NextPolish2 : nextpolish2 --reads hifi.fq.gz --assembly assembly.fa --out polished.fa
Pour les assemblages ONT, un pipeline efficace reste Racon (1 à 3 itérations) → Medaka (modèle de réseau de neurones adapté au basecaller) → polissage des lectures courtes ; les récentes avancées ONT (Dorado/APK) peuvent pousser les assemblages hybrides Verkko/Medaka vers Q50 en pratique, mais cela dépend de la parité chimie/basecaller et d'une paramétrisation soigneuse.Annonce d'Oxford Nanopore, 2024). Squelette typique de l'ONT :
- Racon : minimap2 -x map-ont reads.fq.gz assembly.fa | racon -m 8 -x -6 -g -8 -t 32 reads.fq.gz - assembly.fa > racon1.fa
- Medaka : medaka_consensus -i reads.fq.gz -d raconN.fa -o medaka_out -t 32 -m r941_min_high_g303
Évaluation et prudence
Utilisez Merqury/Merfin pour rapporter la QV et la complétude des k-mers après chaque étape de polissage et évitez le polissage itératif à l'aveugle : un sur-polissage peut introduire un biais de référence ou effondrer de véritables haplotypes dans des régions hétérozygotes. Pour les petits génomes, arrêtez-vous lorsque les gains de QV de Merqury se stabilisent et que les métriques BUSCO/QUAST n'améliorent plus ; enregistrez les versions des outils, les paramètres et le k utilisé pour Merqury dans le README afin que les utilisateurs en aval puissent reproduire les calculs de seuil d'acceptation.
Recommandations par cas d'utilisation (Autorité)
Pour les petits génomes (<500 Mb) qui visent des livrables T2T complets (trio + intégration Hi-C + Strand-seq), emballez les sorties afin que les équipes en aval — annotateurs, groupes de génomique comparative et évaluateurs — puissent travailler sans reformatage. Ci-dessous se trouvent des critères d'acceptation prescriptifs, une liste de contrôle pour l'emballage de la transmission, et deux exemples concrets de flux de travail.
Portes d'acceptation et seuils de contrôle qualité
Suivez une politique d'acceptation multi-métrique plutôt qu'une règle de réussite/échec à un seul chiffre. Pour les livrables de petits génomes T2T, adoptez ces seuils comme minimums, avec des seuils plus stricts pour la publication ou l'étalonnage des méthodes :
- Précision de base (QV Merqury) : objectif QV ≥ 55 ; QV minimum ≥ 50 pour publication ; QV ≥ 40 acceptable pour la recherche de niveau inférieur. Rapport QV avec des graphiques de complétude des k-mers et des spectres pour montrer le contenu manquant ou dupliqué. Voir les critères de contrôle qualité détaillés dans Métriques de QC d'assemblage T2T : Complétude, Précision et Comment Évaluer les Résultats.
- Complétude des gènes (BUSCO) : Complet (C) ≥ 98 % préféré ; Copie unique (C:S) ≥ 95 % ; Dupliqué (D) < 2 %Choisissez le jeu de données de lignée le plus spécifique pour le taxon (par exemple, fungi_odb10, arthropoda_odb10) et rapportez le tableau BUSCO complet.
- Correction structurelle (QUAST/QUAST‑LG) : rapporter NG50/NGA50, erreurs d'assemblage, fraction génomique et métriques sensibles aux références lorsqu'une référence proche existe. Les erreurs d'assemblage doivent être examinées et résolues pour les contigs qui traversent les centromères ou les télomères.
- Complétude de phasage : Pour le phasage basé sur des trios, rapportez les tailles d'assemblage par haplotype, le pourcentage de séquences assignées aux haplotypes et le taux d'erreur de commutation lorsque la vérité parentale est disponible. Pour le phasage Hi-C/Strand-seq, incluez la validation de la carte de contact et les résumés d'orientation Strand-seq.
- Provenance et intégrité : chaque fichier doit avoir une somme de contrôle (SHA256 de préférence), un index .fai pour FASTA, et un manifeste (JSON/YAML) qui enregistre les versions des outils, les paramètres et un résumé de la couverture.
Lors de la notation des métadonnées d'échantillon et des contraintes d'extraction, se référer aux directives de préparation d'échantillon dans Exigences en matière d'échantillons et d'ADN pour le séquençage T2T : Comment éviter l'échec du projet.
Des conventions de nommage explicites et un manifeste de somme de contrôle réduisent l'ambiguïté en aval ; incluez des fragments de manifeste d'exemple et un README minimal qui documente les critères d'acceptation utilisés pour ce projet.
Exemple de flux de travail — microbe de 50 Mo
Entrées supposées : PacBio HiFi 30–50× par haplotype, 30× ONT ultra-long (optionnel), données parentales non disponibles, Hi-C optionnel pour le scaffolding de grands plasmides.
- Assemblage : hifiasm en mode Hi-C (si Hi-C fourni) ou hifiasm par défaut pour uniquement HiFi :
hifiasm -o asm -t 48 reads.hifi.fq.gz. - Polissage : consensus hifiasm interne → NextPolish2 avec des lectures HiFi ; évaluer les décalages de k-mer après chaque ronde avec Merqury.
- Cibles de QC : s'attendre à un QV de 50+ après polissage ; BUSCO (fungi/archaea/autre lignée) > 98 %.
- Livrables : fichier FASTA haploïde à fichier unique (si l'organisme est effectivement haploïde) ou FASTA à double haplotype si l'hétérozygotie est résolue ; assembly.gfa.gz ; spectres Merqury et rapports BUSCO ; manifeste et README.
Sorties attendues : hap1.fa.gz (50 Mo), assembly.gfa.gz (petit graphe), merqury_summary.txt (QV ~50), résumé busco (C >98 %).
Exemple de flux de travail — modèle de 400 Mo (trio + Hi-C + Strand-seq)
Entrées supposées : PacBio HiFi 30–40× par haplotype, ONT ultra-long 20×, Illumina parentale pour le trio-binning, paires de lectures Hi-C 100M, bibliothèques Strand-seq (10–20 cellules).
- Prétraitement : construire des bases de données k-mer parentales (yak) et exécuter le trio-binning hifiasm pour partitionner les lectures.
- Assemblée :
hifiasm -o asm -t 96 --trio maternal.yak paternal.yak hifi/*.fq.gzintégrez ensuite Hi-C pour l'échafaudage ; utilisez Verkko pour les régions hybrides où l'ONT ultra-long offre une résolution. - Validation de phasage : calculer le taux d'erreur de commutation par rapport à la vérité parentale ; utiliser le Strand-seq pour résoudre les orientations à travers les centromères et valider les inversions.
- Polissage : NextPolish2 sur les assemblages de haplotypes puis passes ciblées de Medaka sur les régions résolues par ONT ; valider avec Merqury jusqu'à ce que les gains de QV se stabilisent (objectif QV ≥ 55).
- Livrables : hap1.fa.gz, hap2.fa.gz, assembly.gfa.gz (graph préservant les chemins alternatifs), scaffolds.agp, spectres merqury, rapports BUSCO (C ≥ 98 %), rapport QUAST NGA50 et de mésassemblage, manifeste complet et provenance.
Sorties attendues : deux FASTA de haplotypes (~200 Mo chacun), assembly.gfa.gz (grand graphe avec chemins de phasage), merqury_summary (QV 55+), BUSCO (C ≥98%).
Exemple micro de fournisseur neutre (placement autorisé)
CD Genomics peut accepter un paquet d'entrée standard de niveau D (lectures HiFi, Illumina parentale pour le regroupement trio, FASTQs Hi‑C et bibliothèques Strand‑seq). Pour un eucaryote typique, ils effectueront un assemblage hifiasm regroupé par trio, intégreront Hi‑C pour l'échafaudage des chromosomes et utiliseront Strand‑seq pour confirmer l'orientation et le phasage à grande échelle. Les livrables sont produits conformément à la liste de contrôle ci-dessus : FASTA par haplotype (gzip + .fai), un graphique d'assemblage compressé (GFA/GFA.gz), AGP, et un ensemble QC (spectres Merqury, BUSCO, QUAST) accompagné d'un manifeste et d'un README. Confirmer la nomination spécifique des fichiers et les seuils métriques lors de l'appel de cadrage.
Note micro-exemple : description factuelle uniquement ; pas de superlatifs de performance.
Figure 3. À gauche : graphique d'assemblage GFA simplifié montrant des nœuds et des chemins de branchement qui exposent des répétitions et des routes haplotypiques alternatives (utiles pour les diagnostics structurels et la curation manuelle). À droite : haplotypes linéaires résolus en FASTA (hap1, hap2) présentés sous forme de barres chromosomiques pour annotation et soumission d'archives. Livrer les deux : GFA/GFA.gz compressé plus FASTA par haplotype (+.fai).
Conclusion — Prenez votre décision une fois, utilisez-la partout.
Une politique de livraison T2T robuste pour les petits génomes permet d'économiser des semaines de retravail en aval. Liste de contrôle des décisions résumée :
- Choisissez la méthode de phasage tôt (trio préféré pour les petits génomes) ; engagez-vous sur trio/Hi-C/Strand-seq si vous visez un T2T complet.
- Définir les seuils d'acceptation QV et BUSCO avant l'assemblage (objectif QV ≥ 55 ; BUSCO C ≥ 98 %).
- Exiger à la fois un FASTA linéaire par haplotype et un graphique GFA compressé dans le lot final, ainsi qu'un AGP et un FASTA soft-masqué prêt pour l'annotation lorsque cela est applicable.
- Fournir un manifeste lisible par machine avec des sommes de contrôle SHA256, un fichier README et la provenance des outils.
Si vous souhaitez définir un livrable T2T de catégorie D pour un petit génome, contactez-nous pour définir les entrées, les étapes, les délais et les prix.
Références:
- Formenti, G. et al., Méthodes k‑mer Merfin/Merqury (2022). Aperçu de Merqury/Merfin.
- Cheng, H. et al., algorithme hifiasm et modes (2022). papier Hi-C/trio hifiasm.
- Rautiainen, M. et al., Assembleur hybride Verkko (2023). Recherche sur le génome Verkko.
- Projet BioGénome de la Terre, normes et directives d'assemblage (2022). Résumé des normes EBP.
- Guide de l'utilisateur BUSCO et recommandations de benchmarking. documentation BUSCO.
- Notes de visualisation de Bandage / BandageNG et GFA. Bandage GitHub.