Séquençage Telomère-à-Télomère (T2T) expliqué : Quand avez-vous besoin d'un génome complet

Aperçu rapide

01 Ce que signifie l'assemblage du génome de télomère à télomère 02 Pourquoi T2T est possible maintenant 03 Génomes de brouillon contre génomes complets 04 La pile technologique qui comble les lacunes 05 Planifiez votre projet T2T sans essais ni erreurs. 06 Exemples non humains du monde réel 07 Comment l'assemblage du génome de télomère à télomère transforme votre recherche 08 Prochaines étapes et ressources 09 Auteur et références

Pendant près de deux décennies, le génome humain "achevé" avait encore des zones d'ombre. Environ huit pour cent de la séquence manquait, et une grande partie se trouvait dans des répétitions difficiles à lire. Ces lacunes étaient importantes car les répétitions cachent souvent des gènes, des éléments régulateurs et des variantes structurelles.

Aujourd'hui, cet écart est comblé pour la référence humaine grâce aux longues lectures et aux meilleures méthodes d'assemblage. Ce guide explique ce que signifie l'assemblage du génome de télomère à télomère, pourquoi cela est possible maintenant et comment vous pouvez planifier un projet adapté aux débutants sans coûteux essais-erreurs. Nous gardons l'accent sur les utilisations de recherche non clinique.

Ce que signifie l'assemblage du génome de télomère à télomère

Telomère à telomère, souvent abrégé en T2T, signifie que vous assemblez chaque chromosome bout à bout sans espaces non résolus. La séquence commence à un télomère, passe par le centromère et les régions riches en répétitions, et se termine à l'autre télomère. En d'autres termes, il s'agit d'un chromosome continu et sans lacunes plutôt que d'un brouillon composé de nombreux morceaux séparés par des segments inconnus.

Pourquoi des lacunes apparaissent-elles en premier lieu ? Les lectures courtes ont du mal avec les répétitions. Lorsque vous découpez un génome en petits fragments, de nombreux morceaux se ressemblent presque. L'assembleur ne peut pas déterminer où chaque copie répétée appartient, il laisse donc des interruptions ou fait des suppositions en utilisant une référence. Ces suppositions peuvent créer un biais de référence et des erreurs de jonction. Les longues lectures réduisent cette ambiguïté car elles s'étendent au-delà des répétitions et fournissent un contexte unique autour d'elles.

Pour une définition amicale et un contexte, consultez l'explication pour débutants sur le site de CD Genomics dans l'article intitulé Qu'est-ce que le séquençage de télomère à télomère ?, qui fournit un contexte en langage simple et des termes clés en un seul endroit : le Explication de T2T.

Chromosome diagram with telomeres, centromere, and repeats labeled

Un chromosome complet comprend des télomères, le centromère, des ensembles d'ADNr et d'autres répétitions que les génomes brouillons omettent souvent.

Selon l'aperçu de l'Institut national de recherche sur le génome humain, le premier génome humain complet et sans lacunes a clarifié combien il manquait auparavant et pourquoi les longues lectures étaient une avancée majeure. La page fournit un contexte accessible pour les nouveaux venus dans le domaine : Aperçu du T2T de NHGRI.

Pourquoi T2T est-il possible maintenant ?

L'avancée clé réside dans les longues lectures qui sont à la fois précises et suffisamment longues pour traverser les répétitions. Deux plateformes travaillent souvent ensemble.

PacBio Les lectures HiFi sont longues et très précises. Leur haute précision par base aide les assembleurs à construire des graphes propres avec moins d'erreurs.
Les lectures d'Oxford Nanopore peuvent être ultra-longues. Certaines lectures dépassent les centaines de kilobases, voire plus, ce qui est suffisant pour couvrir les centromères et d'autres longues répétitions.

Cette convergence, ainsi que des données de validation à long terme telles que les cartes Hi-C et les cartes optiques, permet aux assemblages de résoudre des régions difficiles. Le Consortium Telomere-to-Telomere a utilisé ces idées pour produire la première référence humaine sans lacunes. L'équipe a rapporté un total de 3,055 Gb, y compris des répétitions et des séquences de centromères précédemment manquantes, dans l'article intitulé "La séquence complète d'un génome humain." Vous pouvez lire cette étude marquante dans Science ici : le papier T2T-CHM13 (Nurk et al., 2022)Pour un résumé accessible, voir L'annonce de l'UCSC.

Pour avoir une vue d'ensemble de ce que signifie "complet" en 2026 et comment évaluer les assemblages à l'ère T2T, la revue de Heng Li explique les critères et les choix d'outils en termes simples. Elle décrit comment les lectures longues à faible erreur, les cartes à longue portée et une validation minutieuse fonctionnent ensemble : Assemblage du génome à l'ère télomère-à-télomère (Li, 2023).

Génomes ébauches contre génomes complets

Il est facile de confondre un "brouillon" structuré avec un assemblage complet. Un assemblage brouillon peut avoir de longs échafaudages, mais ces portées peuvent inclure des chaînes de Ns, qui sont des lacunes. Il peut également s'appuyer sur une référence pour ordonner les contigs, ce qui peut masquer des erreurs et introduire un biais de référence. Un assemblage complet, en revanche, est continu sans lacunes, et chaque séquence chromosomique atteint les deux télomères.

Lorsque vous évaluez un génome, examinez plusieurs signaux ensemble. Vous avez besoin de continuité, de complétude et de justesse. Vous avez également besoin d'intégrité structurelle, en particulier dans les régions riches en répétitions.

La continuité est généralement résumée par le contig N50. Un N50 plus élevé indique souvent des morceaux plus grands, mais cela ne suffit pas à lui seul.
La complétude peut être vérifiée avec BUSCO, qui recherche des gènes conservés. Un taux de récupération élevé de BUSCO suggère que la plupart du contenu génétique est présent.
La justesse implique une précision consensuelle, souvent résumée par le QV de Merqury. Un QV plus élevé signifie moins d'erreurs de base dans la séquence finale.
L'intégrité structurelle demande : avez-vous résolu les télomères et les centromères, les amas d'ADNr et les duplications segmentaires sans ruptures ?

Si vous êtes nouveau dans les vérifications post-assemblage, le Galaxy Training Network propose des tutoriels pratiques et adaptés aux débutants qui expliquent Merqury, BUSCO et des outils connexes sur des données réelles. Voir le Tutoriel QC post-assemblage ERGA pour des instructions étape par étape.

Conception d'une expérience pilote : un plan simple et reproductible

Commencez petit, testez rapidement et mesurez clairement. Un pilote ciblé réduit les conjectures et montre si votre préparation d'échantillon et les plateformes choisies combleront les lacunes.

Définir la portée et les objectifs. Indiquer la taille du génome, le contenu en répétitions attendu et si des haplotypes phasés sont nécessaires. Cela rend les cibles de couverture pratiques.
Collectez un échantillon de haute qualité pour le pilote. Priorisez l'ADN HMW avec des métriques de taille claires (pulse-field ou Femto) et une bonne pureté.
Plan de données (exemple de projet pilote pour un génome de plante de 500 à 800 Mo) :
- PacBio HiFi : visez une couverture brute HiFi de 30 à 40×.
- ONT ultra-long : générer un ensemble de lectures ultra-longues avec une N50 de lecture ≥100 kb et un rendement total modeste (20–50 Gb) pour tester le pontage de longues répétitions.
- Lectures courtes optionnelles ou Hi-C : inclure une petite bibliothèque Hi-C ou des lectures courtes de 10 à 20× pour la validation et l'assemblage si disponible.
Sous-échantillonnage et comparaisons. Produisez trois assemblages à partir des mêmes données pilotes pour comparer les résultats :
- Assemblage uniquement HiFi (par exemple, hifiasm).
- Assemblage hybride HiFi + ONT (par exemple, Verkko ou hifiasm-UL).
- ONT - première assemblée si vous vous appuyez sur des lectures ultra-longues (par exemple, Flye), puis polissez avec HiFi. Sous-échantillonnez les lectures (par exemple, 20×, 30×, 40× HiFi) pour voir où les gains se stabilisent.
Rapportez les chiffres bruts. Dans votre rapport pilote, incluez les rendements bruts, la longueur moyenne/médiane des lectures, le N50 des lectures et la couverture estimée par type de données.

Gardez le pilote court (une semaine d'analyse) afin de pouvoir itérer rapidement.

Seuils de QC rapides (guidage pilote)

Point de contrôle	Métrique	Cible pratique (pilote)
Qualité de lecture	Couverture HiFi	30–40×
Longueur de lecture longue	ONT lire N50	≥100 Ko pour les tests de pont
Complétude de l'assemblage	BUSCO (lignée appropriée)	≥95 % suggère une bonne complétude génétique.
Précision du consensus	Merqury QV (k-mer)	≥30 est un objectif conservateur.
Vérification structurelle	Carte de contact Hi-C	Diagonales chromosomiques claires ; peu d'artefacts inter-chromosomiques.

Ces objectifs sont des points de départ conservateurs informés par la pratique communautaire ; consultez les recommandations de Heng Li de l'ère T2T et les tutoriels de QC de Galaxy pour plus de contexte : Assemblage du génome à l'ère T2T (Li, 2023) et le Tutoriel de contrôle qualité post-assemblage ERGA.

Évaluation comparative et reproductibilité : une courte liste de contrôle

Corrigez les versions du logiciel et du matériel. Listez les assembleurs, les basecallers et les polishers avec les versions exactes et les options de ligne de commande.
Partagez les métriques brutes. Publiez les rendements de lecture bruts, le N50 de lecture et les calculs de couverture dans un tableau court.
Enregistrez les règles de sous-échantillonnage. Indiquez comment vous avez sélectionné les lectures (longueur maximale de X Go ou sous-échantillonnage aléatoire) et incluez les scripts ou commandes.
Exécutez au moins deux stratégies d'assemblage. Comparez les constructions HiFi uniquement, hybrides et ONT-first et rapportez les BUSCO, QV, N50 des contigs et les vérifications ordinales pour la présence de télomères/centromères.
Validez visuellement. Incluez au moins une image de carte de contact Hi-C et un graphique d'identité de mappage des lectures dans votre rapport.
Rendez les données et les commandes disponibles. Déposez les lectures brutes dans un dépôt approprié ou fournissez des instructions d'accès, et archivez les journaux de commandes exacts afin que les pairs puissent reproduire les résultats.

Suivre ces étapes simples vous aide à évaluer si un projet T2T complet est réalisable et réduit les exécutions inutiles. Pour le contrôle qualité par étapes et les outils, des tutoriels et des critiques de la communauté fournissent des exemples et des commandes exécutables.

La pile technologique qui comble les lacunes

Pour comprendre pourquoi les longues lectures sont utiles, imaginez un puzzle avec de nombreux morceaux similaires. Les courtes lectures capturent de minuscules fragments de l'image. Beaucoup de pièces s'adaptent à plusieurs endroits, donc vous hésitez ou faites une supposition. Les longues lectures sont comme de plus grandes bandes de puzzle qui incluent des repères distinctifs. Elles relient les répétitions et vous amènent dans la bonne région unique de l'autre côté.

En pratique, PacBio HiFi fournit des lectures longues à haute précision qui maintiennent le graphe d'assemblage propre, tandis qu'Oxford Nanopore offre des lectures ultra-longues qui couvrent physiquement de longues répétitions et des centromères. Les assembleurs hybrides, tels que Verkko ou hifiasm-UL, peuvent utiliser les deux types de données. Si vous souhaitez un aperçu concis des différences entre les plateformes, consultez ce document interne : Comparaison entre PacBio et Oxford Nanopore.

Hybrid T2T sequencing workflow from DNA to gapless chromosomes

Divulgation : CD Genomics est notre produit. À titre d'exemple neutre, de nombreux laboratoires utilisent un flux de travail hybride pour réduire les essais-erreurs. Ils commencent par un contrôle qualité de l'ADN à haut poids moléculaire, puis prévoient des séquençages PacBio HiFi pour des contigs de backbone précis et ajoutent des séquences ultra-longues Oxford Nanopore pour relier les longues répétitions. Les assemblages sont construits avec un outil capable d'hybride et validés avec Merqury QV, BUSCO et des cartes Hi-C. Un partenaire de service tel que CD Genomics peut coordonner les séquences multi-plateformes et fournir des vérifications bioinformatiques sans changer votre contrôle scientifique.

Pour un guide lisible sur la manière et les raisons pour lesquelles ces deux types de données se complètent, les ressources des fournisseurs sont un contexte utile. Voir le Aperçu des lectures longues PacBio et le Guide de longueur de lecture ONTPour une perspective communautaire plus approfondie, la revue de Heng Li ci-dessus explique les normes et les choix à l'ère T2T.

Planifiez votre projet T2T sans essais ni erreurs.

Les débutants sont souvent confrontés à deux défis liés : des assemblages fragmentés et une incertitude quant à la quantité de données suffisante. L'objectif ici est de vous fournir des chiffres de planification prudents et des points de contrôle qui vous aideront à éviter des suppositions répétées.

L'ADN à haut poids moléculaire facilite tout. Manipulez les échantillons avec précaution, évitez le vortexage et utilisez des méthodes d'extraction conçues pour l'ADN long. Maintenez une haute pureté et vérifiez l'intégrité avant de vous engager dans le séquençage. Si vous avez besoin de conseils pratiques, CD Genomics fournit des conseils de niveau élémentaire sur l'extraction et la manipulation de l'ADN pour les projets de séquençage long dans son Guide d'extraction d'ADN.

Le tableau ci-dessous résume les cibles de départ typiques. Ajustez en fonction de la taille du génome, du contenu en répétitions, de la ploïdie et de l'hétérozygotie. Confirmez toujours avec la littérature de votre organisme.

Taille du projet	Cible de couverture HiFi	objectif ultra-long ONT	Données à long terme	Cibles typiques de contrôle qualité
Petits génomes (microbiens, <10 Mb)	50× ou plus	Facultatif ; à utiliser si les répétitions provoquent des interruptions.	Optionnel ; à utiliser en cas de grands plasmides ou de répétitions.	BUSCO près de 100 % pour la lignée pertinente ; QV ≥ 40
Génomes moyens (100–800 Mb)	30 à 60 fois par haplotype	Lire N50 ≥ 100 kb ; supplément pour relier de longs répétitions	Hi-C à ≥30× de couverture physique pour un échafaudage robuste	BUSCO ≥ 95–99 % ; QV ≥ 30–40 ; long contig N50
Génomes larges (>1 Go, riches en répétitions)	40–80× par haplotype	Pousser pour obtenir de nombreuses lectures ultra-longues avec un N50 ≥ 100–150 kb	Hi-C et, si possible, cartes optiques pour validation	BUSCO élevé pour le clade ; QV ≥ 30 ; vérifier la continuité des télomères et des centromères.

Ces plages s'appuient sur les pratiques communautaires reflétées dans des revues et des tutoriels, tels que la revue de l'ère T2T par Heng Li et les articles sur les méthodes VGP qui montrent comment HiFi, Hi-C et d'autres cartes fonctionnent ensemble. Pour plus de contexte, voir Assemblage du génome à l'ère telomère-à-télomère (Li, 2023) et le Flux de travail VGP v2.1 dans Galaxy.

Points de contrôle pratiques qui réduisent les conjectures :

Vérifiez la distribution de taille et la pureté de l'ADN brut avant la préparation de la bibliothèque. Si l'ADN HMW est faible, améliorez l'extraction plutôt que d'espérer que l'assemblage le corrigera.
Après le séquençage, confirmez les métriques de couverture et de longueur de lecture. Si le N50 ultra-long ONT est trop court pour couvrir des répétitions clés, envisagez un autre flux de cellules.
Lors de l'assemblage, suivez le contig N50, BUSCO et Merqury QV. Si BUSCO diminue ou si le QV est bas, revisitez le polissage et l'équilibre des données.
Validez avec des cartes de contact Hi-C. Des motifs diagonaux forts et nets soutiennent une structure correcte à l'échelle des chromosomes.

Un calcul de couverture simple

Disons que votre génome fait 600 Mb. Vous prévoyez un séquençage HiFi à 40× et un ensemble ultra-long ONT pour relier les répétitions.

HiFi : 600 Mo × 40 = 24 000 Mo = 24 Go de séquence HiFi. Si votre rendement HiFi est d'environ 15 Go par cellule SMRT (un chiffre d'exemple qui varie selon la chimie), vous programmeriez deux cellules et laisseriez une marge pour le contrôle qualité.
ONT UL : Visez un N50 ≥ 100 kb et quelques centaines de Gbases de rendement total si les répétitions sont longues et fréquentes. Le rendement varie en fonction de la chimie et de la qualité de l'ADN, donc planifiez de manière plus conservatrice si vos métriques d'ADN HMW sont limites.

Parce que les rendements changent au fil du temps et avec la préparation des échantillons, vérifiez toujours les dernières recommandations de la plateforme et ajustez. L'idée est de budgétiser suffisamment de données afin que l'assemblage puisse clôturer les répétitions sans trop de reprises.

Un pipeline hybride minimal et exécutable

Cet exemple est destiné à l'apprentissage sur un poste de travail. Remplacez les noms de fichiers par les vôtres. Les commandes supposent des outils courants et des préréglages par défaut ; pour la production, ajustez les paramètres et consultez les manuels des outils.

Inspecter les lectures et estimer la taille du génome avec des k-mers.

meryl count k=21 output meryl_db *.fastq.gz
meryl print greater-than 100 meryl_db > kmers.gt100.txt

Assemble avec Verkko (HiFi + ONT)

verkko \
  --hifi reads_hifi.fastq.gz \
  --nano reads_ont.fastq.gz \
  --threads 32 --work-dir verkko_out

Évaluer la complétude et l'exactitude

busco -i verkko_out/consensus.fasta -l embryophyta_odb10 -m genome -o busco_out
merqury.sh sample.meryl verkko_out/consensus.fasta merqury_out

Inspecter la carte de contact Hi-C (si disponible)

juicer.sh -g genome -z verkko_out/consensus.fasta -p genome.chrom.sizes -s MboI -y restriction_sites.txt -D juicer_dir

Ces étapes vous donnent une idée du flux de travail. Pour des projets réels, ajoutez un polissage, purgez les haplotypes si nécessaire et effectuez une curation manuelle lorsque des indicateurs de contrôle qualité apparaissent.

Exemples non humains du monde réel

Les débutants se demandent souvent si l'assemblage du génome de télomère à télomère est uniquement destiné aux études humaines. La réponse est non. Des projets récents sur les plantes et les animaux montrent comment des stratégies hybrides aident à travers les espèces.

Maïs. Une étude de Nature Genetics a rapporté un assemblage complet et sans lacunes du maïs. Le projet a utilisé des lectures longues et des données à longue portée pour résoudre des répétitions complexes typiques des grands génomes végétaux. Ce travail illustre comment un contenu élevé en répétitions peut encore être maîtrisé avec le bon équilibre de données. Consultez un article contextuel en libre accès de 2024 qui discute des assemblages de maïs et des méthodes connexes ici : un aperçu des projets de génomes à longues lectures chez les planteset notez le DOI de l'article T2T sur le maïs : 10.1038/s41588-023-01419-6.
Sorgho. Plusieurs études en 2024 ont réalisé des assemblages T2T de lignées de sorgho en utilisant des données hybrides, avec des rapports sur des télomères et des centromères intacts à travers les chromosomes. Consultez les méthodes et résultats dans des revues de biologie végétale qui décrivent comment HiFi, ONT ultra-long et Hi-C fonctionnent ensemble. Un bon point de départ est cet article en libre accès avec des détails pour la référence BTx623 : une ressource T2T de sorgho 2024, avec DOI 10.1016/j.xplc.2024.100977.
Cellules souches embryonnaires haploïdes de souris. Une séquence complète, de télomère à télomère, a été rapportée pour un système mammifère non humain. L'article de Science montre comment les défis diploïdes peuvent être contournés grâce à la conception expérimentale et aux données de lecture longue. C'est un exemple utile pour les laboratoires animaliers planifiant un travail similaire : compléter T2T dans les cellules souches embryonnaires haploïdes de souris.

Ces exemples montrent qu'une approche hybride peut vous aider à aller au-delà des brouillons même dans des génomes larges et riches en répétitions. Ils montrent également pourquoi la validation est importante. Les articles documentent non seulement la continuité de l'assemblage, mais aussi la justesse et l'intégrité structurelle, y compris les télomères et les centromères.

Où l'assemblage du génome de télomère à télomère transforme votre recherche

Une assemblage complet et sans lacunes vous offre une base solide. De nombreuses analyses en aval deviennent plus simples et plus précises car vous ne devez plus deviner à travers les lacunes ou ajuster en fonction des biais de référence.

Nouvelle découverte génétique. Les gènes situés à l'intérieur des répétitions ou près des centromères sont plus faciles à trouver et à annoter lorsque ces régions sont présentes dans l'assemblage. En conséquence, vos catalogues de gènes sont plus complets.
Variation structurelle. Les longues lectures révèlent des réarrangements, des inversions et des changements de nombre de copies que les courtes lectures manquent souvent. Lorsque l'assemblage est sans lacunes, vous pouvez cartographier et comparer ces caractéristiques sans le bruit des lacunes.
Les études sur l'évolution. Les répétitions évoluent rapidement. Lorsque vous les voyez enfin dans leur intégralité, vous pouvez suivre l'évolution des centromères, les expansions de satellites et les duplications segmentaires à travers les lignées.

Si vous souhaitez un rappel court et autoritaire sur l'importance du premier génome humain sans lacunes pour l'analyse, relisez le jalon de Science : le papier T2T-CHM13Il relie l'étape technique de la fermeture des lacunes à une meilleure compréhension biologique.

Prochaines étapes et ressources

L'assemblage du génome de télomère à télomère n'est plus un objectif lointain. Avec une planification soignée et les bonnes données, il est à la portée de nombreux projets non humains aujourd'hui. Commencez par définir votre question scientifique, puis adaptez votre plan de données à votre organisme et à ses répétitions. Utilisez les points de contrôle de ce guide pour éviter les essais et erreurs.

Si vous souhaitez une introduction plus approfondie sur les concepts et les technologies habilitantes, la ressource CD Genomics propose une introduction en langage simple : Explication de T2TPour un aperçu technologique clair qui montre pourquoi les stratégies hybrides fonctionnent, consultez le Comparaison entre PacBio et Oxford Nanopore.

Lorsque vous êtes prêt à planifier un projet, vous pouvez consulter ici des exemples pratiques de gestion et des critères d'acceptation : directives de soumission d'échantillons (et le compagnon guide PDF). Si vous avez besoin d'un support complet dans un contexte d'utilisation à des fins de recherche uniquement, vous pouvez consulter les options de service et le support d'analyse sur ces pages : services de séquençage à lecture longue et service d'analyse de données longue durée.

Pour conclure, voici une liste de contrôle rapide que vous pouvez parcourir avant de vous engager dans le séquençage.

Hybrid T2T sequencing workflow from DNA to gapless chromosomes

Votre ADN est-il de haute masse moléculaire et pur ? Sinon, corrigez d'abord l'extraction.
Vos lectures prévues répondent-elles aux objectifs de couverture et de longueur de lecture pour la taille de votre génome ?
Avez-vous choisi un plan d'assemblage qui utilise à la fois la précision et la longueur de lecture pour combler les répétitions ?
Avez-vous un plan de validation avec Merqury QV, BUSCO et des cartes Hi-C ?

FAQ pour débutants

- Ai-je toujours besoin des données PacBio HiFi et ONT ultra-longues ?
  - Pas toujours. Le HiFi uniquement peut produire d'excellentes assemblées pour des génomes plus petits ou moins répétitifs. Cependant, les données ultra-longues ONT aident à relier des répétitions très longues, les centromères et les télomères. Utilisez le paysage de répétition de votre organisme et les métriques pilotes pour décider. Voir Assemblage du génome à l'ère T2T (Li, 2023) pour orientation.
- Que faire si mon BUSCO est élevé mais que mon QV est bas ?
  - Vous pouvez avoir la plupart des gènes présents, mais des erreurs de base subsistent. Envisagez un polissage supplémentaire avec des lectures précises, un rééquilibrage des types de données ou une vérification de la contamination avec des outils tels que BlobToolKit. Tutoriel ERGA QC montre des étapes pratiques.
- Comment puis-je savoir si j'ai atteint un assemblage du génome de télomère à télomère ?
  - Recherchez des répétitions télomériques terminales aux deux extrémités de chaque chromosome, des amas centromériques continus sans interruptions, et des cartes de contact Hi-C nettes. Confirmez avec les rapports d'assemblage et les outils de visualisation.

Mini glossaire

Contig : Une séquence continue assemblée sans interruptions.
Échafaudage : Contigs ordonnés et orientés pouvant inclure des lacunes (N).
BUSCO : Un outil qui vérifie les gènes à copie unique attendus pour évaluer la complétude.
Merqury QV : Une mesure de la précision du consensus basée sur les k-mers ; plus c'est élevé, mieux c'est.
N50 : La longueur à laquelle 50 % de l'assemblage est constitué de contigs de cette taille ou plus longs.

Vous êtes toujours curieux des bases de l'assemblage du génome de télomère à télomère ? Pensez-y de cette manière : c'est une promesse que vous vous faites de voir chaque base que vous pouvez potentiellement voir, dans l'ordre. Cette promesse transforme un brouillon en une ressource scientifique fiable sur laquelle vous pouvez vous appuyer.

Auteur et qualifications

Équipe de bioinformatique et de séquençage de CD Genomics. Composé de scientifiques de niveau doctorat et de bioinformaticiens seniors, l'équipe possède une vaste expérience dans la coordination d'études génomiques internationales et multicentriques. Ils ont géré des programmes d'assemblage de génomes de novo et des projets de séquençage à longues lectures utilisant les plateformes PacBio et Oxford Nanopore, et ils soutiennent régulièrement le profilage transcriptomique et épigénomique à grande échelle. Les capacités fondamentales incluent le développement de flux de travail bioinformatiques personnalisés, des protocoles de contrôle qualité standardisés, l'harmonisation d'études longitudinales et la gouvernance des données prête pour les audits.

Divulgation : CD Genomics est notre produit. Cet article est publié sous un nom d'équipe. CD Genomics a fourni des informations techniques pour ce contenu. Toutes les recommandations techniques sont illustratives et doivent être évaluées par des experts indépendants pour des objectifs d'étude spécifiques. Pour plus d'informations sur les plateformes et services mentionnés, consultez le site Web de CD Genomics : CD Genomics.

Références et lectures suggérées:

Étude des jalons T2T : La séquence complète d'un génome humain (Science, 2022).
Aperçu pour débutants : L'explication du projet telomère-à-télomère de l'NHGRI; contexte général des nouvelles de UCSC.
Normes de l'ère T2T : Assemblage du génome à l'ère T2T (Li, 2023).
Guide pratique de contrôle qualité : Tutoriel de contrôle qualité post-assemblage Galaxy ERGA.
Contexte de la plateforme : Aperçu des lectures longues PacBio; Guide de longueur de lecture ONT.
Exemples non humains : aperçu du projet de lecture longue des plantes dans le contexte du maïs; ressource T2T sorgho BTx623; ESCs haploïdes de souris T2T.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés