What is a Genome Assembly Strategy Solution?

It is a research-focused service approach that helps you choose and execute the right genome assembly plan based on your species, sample quality, genome complexity, assembly level, and downstream goals.

How do I know what assembly level my project needs?

The right level depends on the research question. Early gene discovery may need a draft or contig-level assembly, while trait mapping, synteny, and breeding research often benefit from chromosome-level assembly. Haplotype-resolved or T2T-like strategies may be considered for complex genomes or repeat-rich regions.

Why should I not rely on N50 alone?

N50 describes continuity, but it does not fully measure completeness, accuracy, contamination, misassembly risk, or annotation readiness. A strong QC review should combine multiple metrics.

What deliverables can I expect from a genome assembly project?

Deliverables may include assembly FASTA files, QC summaries, N50 statistics, BUSCO reports, QV estimates, contamination review, annotation files, repeat annotation, Hi-C scaffolding outputs, genome browser-ready files, and project reports.

Solution de stratégie d'assemblage du génome

Table des matières

Genome assembly strategy decision framework

Explorez comment le niveau d'assemblage, la complexité du génome, la qualité des échantillons, la stratégie de séquençage, le contrôle qualité, l'annotation et l'analyse en aval sont interconnectés.

Commencez par le niveau d'assemblage dont votre recherche a réellement besoin.

De nombreuses pages sur l'assemblage de génomes commencent par comparer les plateformes de séquençage. En pratique, le meilleur point de départ est le niveau d'assemblage. Un génome microbien, un premier brouillon pour une espèce non modèle, un génome de plante au niveau chromosomique et un génome animal résolu par haplotype n'ont pas besoin du même plan.

Avant de recommander un flux de travail, nous vous aidons à définir ce que l'assemblage final doit supporter. Un projet de découverte de gènes peut nécessiter une stratégie d'assemblage et d'annotation différente d'un projet axé sur le mapping de traits, la variation structurelle, la construction de pan-génomes ou la génomique des populations.

Assemblage de niveau ébauche ou contig pour les premières ressources génomiques

Une assemblage de brouillon ou au niveau des contigs peut être approprié lorsque votre objectif est de créer une ressource de référence précoce, de découvrir un large éventail de gènes, de reconstruire des génomes microbiens ou de réaliser une analyse comparative préliminaire. Cela peut être utile lorsque le génome est compact, que la question de recherche ne nécessite pas un ordre à l'échelle des chromosomes, ou que le projet est conçu comme une première étape avant une analyse plus approfondie.

Ce niveau peut fournir un point de départ pratique, mais il peut ne pas pleinement soutenir l'analyse de liaison, l'interprétation structurelle à l'échelle des chromosomes ou la résolution de répétitions complexes.

Assemblage au niveau des chromosomes pour des études de liaison, de traits et comparatives

L'assemblage au niveau des chromosomes est souvent nécessaire lorsque la position génomique est importante. Cela inclut le cartographie des traits, la recherche en élevage, l'évolution des chromosomes, l'analyse de la syntenie, la génomique comparative et de nombreux projets de génomes de plantes ou d'animaux.

Le scaffolding Hi-C peut aider à ordonner et orienter les contigs assemblés en échafaudages à l'échelle des chromosomes. Pour les projets où l'assemblage final soutiendra le travail de cartographie en aval ou comparatif, une structure au niveau des chromosomes peut être plus précieuse qu'un assemblage fragmenté avec une haute précision locale mais une organisation à long terme limitée.

Assemblage résolu par haplotype pour des génomes hétérozygotes ou polyploïdes

Pour les organismes hautement hétérozygotes, issus de croisements, hybrides ou polyploïdes, une seule représentation réduite peut masquer une structure importante spécifique aux allèles ou aux haplotypes. Dans ces cas, un assemblage résolu par haplotype ou en phase peut être utile.

Cette stratégie peut être importante pour l'élevage de plantes et d'animaux, la découverte de gènes spécifiques à des allèles, l'analyse des variations structurelles et les projets où les sous-genomes ou les chromosomes homologues nécessitent une interprétation minutieuse.

Assemblage de type T2T lorsque les répétitions, les centromères et les télomères comptent

Une stratégie similaire à T2T peut être envisagée lorsque des lacunes non résolues, de longues répétitions, des régions centromériques, des régions télomériques ou des régions structurales complexes sont au cœur de l'étude. Il s'agit généralement d'un type de projet plus exigeant car il dépend fortement de la qualité de l'échantillon, de la longueur des lectures, de la stratégie d'assemblage et de l'examen manuel ou personnalisé.

Tous les projets n'ont pas besoin d'une assemblée de type T2T. Nous vous aidons à décider si ce niveau de résolution est nécessaire pour votre question de recherche ou si une assemblée au niveau des chromosomes ou une assemblée phasée serait plus pratique.

Associez la stratégie de séquençage à la complexité du génome.

Une fois que le niveau d'assemblage cible est clair, la stratégie de séquençage devient plus facile à concevoir. Différents génomes nécessitent différentes couches de preuves. La taille du génome, le contenu en répétitions, la ploïdie, l'hétérozygotie, le risque de contamination et la qualité de l'échantillon influencent tous le plan d'assemblage final.

Lorsque PacBio HiFi est l'ancre de précision

Séquençage SMRT de PacBio peut soutenir des projets d'assemblage de génomes qui nécessitent des preuves de longues lectures avec une haute précision de consensus. Les lectures PacBio HiFi sont souvent précieuses pour l'assemblage de génomes de novo car elles combinent une structure de longues lectures avec une haute précision par lecture.

PacBio HiFi peut être particulièrement utile lorsque le projet nécessite une qualité de consensus fiable, une bonne récupération de l'espace génétique et une base solide pour l'annotation.

Lorsque les lectures ultra-longues de Nanopore aident à combler les répétitions.

Séquençage par nanopore peut être utile lorsque le génome contient de longues répétitions, de grandes régions structurales ou des lacunes qui nécessitent des preuves s'étendant sur de plus longues distances. Pour certains génomes complexes, les lectures ultra-longues peuvent aider à relier des régions que les lectures plus courtes ne peuvent pas résoudre.

Les données de nanopore peuvent également être prises en compte dans des stratégies ou des projets similaires à T2T où la longueur de lecture est un avantage majeur.

Lorsque Hi-C est nécessaire pour le scaffolding à l'échelle des chromosomes.

Service de séquençage Hi-C fournit des informations de contact à longue portée qui peuvent aider à commander et à orienter les contigs en échafaudages à l'échelle des chromosomes. Cela est particulièrement pertinent lorsque l'assemblage final nécessite une structure au niveau des chromosomes.

Hi-C n'est pas simplement une décoration optionnelle. Lorsque l'objectif de la recherche dépend de l'organisation à l'échelle des chromosomes, Hi-C ou une autre approche de scaffolding à longue portée peut être une partie clé de la stratégie.

Quand le polissage des lectures courtes ou les preuves hybrides sont encore utiles

Le séquençage à lecture courte peut encore avoir de la valeur dans les projets d'assemblage. Il peut soutenir le polissage, la correction locale, la révision de la contamination, l'évaluation des variantes ou l'analyse complémentaire en fonction de la conception du projet.

Une stratégie hybride peut être utile lorsque un type de données ne répond pas à toutes les questions. L'objectif n'est pas d'inclure chaque technologie, mais de combiner les couches de preuves qui correspondent au génome et à l'objectif en aval.

Ce que nous examinons avant de recommander un plan d'assemblage

Un bon plan d'assemblage commence par un examen des risques. Nous ne voulons pas recommander un flux de travail haut de gamme que l'échantillon ne peut pas supporter, ni un flux de travail minimal qui ne peut pas répondre à la question de recherche en aval.

Espèce, taille du génome, ploïdie et hétérozygotie

Nous commençons par examiner l'organisme et toute information génomique disponible. Les détails utiles incluent la taille estimée du génome, la ploïdie, le contenu en répétitions connu, l'hétérozygotie attendue, les génomes de référence associés, et si l'espèce est domestiquée, sauvage, hybride, consanguine, hybride libre ou polyploïde.

Ces détails aident à déterminer si le projet nécessite un assemblage standard de novo, un échafaudage au niveau des chromosomes, un assemblage résolu par haplotype, ou une stratégie plus avancée.

Qualité de l'ADN HMW et risque d'échantillon

La qualité de l'ADN de haut poids moléculaire est l'un des facteurs les plus importants dans l'assemblage de génomes à longues lectures. Le type de tissu, la méthode de conservation, la difficulté d'extraction, la taille des fragments d'ADN, les contaminants, les polysaccharides, les polyphénols, la contamination microbienne et l'âge de l'échantillon peuvent tous affecter la construction de la bibliothèque et la continuité de l'assemblage.

Pour les échantillons difficiles, nous examinons la faisabilité avant de finaliser la stratégie d'assemblage.

Données de séquençage existantes ou ébauches d'assemblages

Certains projets commencent avec des données existantes. Vous avez peut-être déjà des lectures courtes, des lectures PacBio, des lectures Nanopore, des données Hi-C ou un assemblage préliminaire fragmenté.

Dans ces cas, nous pouvons aider à évaluer si les données peuvent être réutilisées, améliorées, structurées, perfectionnées, annotées ou intégrées dans un flux de travail d'assemblage révisé.

Objectifs en aval qui affectent la conception de l'assemblage

Les objectifs en aval devraient façonner le plan d'assemblage. Un génome destiné à l'annotation des gènes peut nécessiter des priorités différentes de celui destiné à la variation structurelle, à l'analyse du pan-génome, à l'association génome-large, à la génomique des populations ou au développement de marqueurs de sélection.

Nous examinons ces objectifs tôt afin que l'assemblage soit conçu comme une ressource génomique utilisable, et pas seulement comme un fichier FASTA.

Options de stratégie d'assemblage du génome comparées

La meilleure stratégie d'assemblage du génome dépend à la fois du génome et de l'objectif de recherche. Le tableau ci-dessous résume les options courantes et comment nous aidons à les positionner.

Stratégie	Cas d'utilisation optimal	Sensibilité des exigences d'échantillonnage	Ajustement de la complexité du génome	Considérations de contrôle qualité	Préparation en aval
Assemblage de brouillon de courtes lectures	Génomes compacts, dépistage précoce, projets microbiens simples ou ressources préliminaires.	Modéré ; des fragments d'ADN plus courts peuvent être acceptables selon le projet.	Limité pour les répétitions élevées, les grands génomes et les structures complexes	Besoin d'une révision de la couverture, d'un contrôle de contamination et d'une vérification de l'exhaustivité de l'assemblage.	Peut soutenir la découverte de gènes de base ou l'analyse microbienne, mais est limité pour des structures en aval complexes.
Assemblage PacBio HiFi	Assemblage de novo précis, récupération de l'espace génétique, construction de génome de référence, projets prêts pour le phasage.	Nécessite de l'ADN de haute qualité approprié.	Fort pour de nombreux génomes de plantes, d'animaux, de champignons et de non-modèles.	Évaluez le N50 des contigs, BUSCO, QV, la complétude, la contamination et le phasage si applicable.	Base solide pour l'annotation, la génomique comparative et de nombreux projets de génomes de référence.
Assemblage long ou ultra-long par nanopore	Régions riches en répétitions, longues régions structurales, fermeture de lacunes, stratégies similaires à T2T.	Très sensible à la qualité de l'ADN HMW et à la longueur des fragments.	Forte lorsque la portée de lecture longue est critique	Évaluez la longueur de lecture, la couverture, la qualité du consensus, la résolution des répétitions et la stratégie de polissage.	Utile pour la structure complexe, la résolution des lacunes et l'architecture génomique à longue portée.
Échafaudage Hi-C	Assemblage au niveau des chromosomes, liaison, syntenie, élevage, génomique comparative	Nécessite un matériau approprié pour la préparation de la bibliothèque Hi-C.	Forte pour l'ordonnancement et l'orientation des contigs en échafaudages à l'échelle des chromosomes.	Évaluer la qualité de la carte de contact, l'exactitude du squelette, les erreurs de jonction et l'attribution chromosomique.	Important pour le travail en aval au niveau des chromosomes
Assemblage hybride	Projets nécessitant une précision complémentaire, une continuité, un polissage ou des preuves à long terme.	Dépend des types de données inclus.	Flexible pour des projets complexes ou de grande valeur	Nécessite une intégration soigneuse et un contrôle qualité multiplateforme.	Forte lorsque l'assemblage doit soutenir plusieurs utilisations en aval.
Assemblage résolu par haplotype	Organismes hétérozygotes, hybrides, issus de croisements ou polyploïdes.	Nécessite une forte qualité des données et une couverture suffisante.	Forte lorsque l'interprétation spécifique à l'allèle ou consciente du sous-génome est importante	Évaluer la précision de phasage, la séparation des haplotypes, la duplication et l'exhaustivité.	Utile pour l'élevage, l'analyse spécifique des allèles, les SV et l'interprétation complexe du génome.
assemblage de type T2T	Centromères, télomères, longues répétitions, lacunes non résolues, ressources de référence premium	Très sensible à la qualité de l'échantillon, à la longueur de lecture et à la conception des données.	Forte pour les régions répétitives difficiles lorsqu'elle est soutenue par des données.	Évaluer la fermeture des écarts, la résolution des répétitions, la QV, la révision manuelle et la cohérence structurelle.	Utile pour des projets de référence haut de gamme et des recherches centrées sur la répétition.
Assemblage de génomes microbien, fongique ou compact	Génomes de souches bactériennes, fongiques, virales, plasmidiques ou génétiquement modifiées.	Souvent moins exigeants que les grands génomes eucaryotes, mais le contrôle de la contamination est important.	Adapté aux génomes compacts ; la stratégie dépend des plasmides, des répétitions et de la structure du génome.	Évaluer la circularisation, la contamination, les plasmides, la complétude et la qualité de l'annotation.	Utile pour la caractérisation des souches, la génomique comparative et la recherche en biologie synthétique.

Flux de travail de bout en bout, de l'examen des échantillons à la ressource génomique utilisable.

De l'examen de faisabilité des échantillons à la conception de séquençage, l'assemblage, le contrôle qualité, l'annotation et les fichiers prêts pour l'analyse en aval.

Genome assembly workflow with sequencing strategy and QC checkpoints

Un projet d'assemblage de génome passe par plusieurs points de contrôle techniques et décisionnels. Nous construisons le flux de travail autour du niveau d'assemblage final et de l'objectif de recherche en aval.

Nous examinons l'organisme, le type d'échantillon, la méthode de conservation, la qualité attendue de l'ADN et les facteurs de risque. Pour l'assemblage par longues lectures, l'ADN de haute masse moléculaire est souvent essentiel. Lorsque le risque lié à l'échantillon est élevé, nous discutons des options avant le début du séquençage.

En fonction du niveau d'assemblage cible, nous recommandons les types de données nécessaires. Cela peut inclure PacBio HiFi, Oxford Nanopore, Hi-C, le polissage des lectures courtes ou un design hybride. Le plan de séquençage doit correspondre à la complexité du génome plutôt que de suivre un modèle fixe.

Le flux de travail d'assemblage peut inclure l'assemblage de contigs, le polissage, la séparation des haplotypes, la construction de structures de support, l'ordonnancement et l'orientation basés sur Hi-C, la révision des lacunes et le raffinement de type T2T lorsque cela est approprié.

Lorsqu'il est inclus dans le projet, nous soutenons l'annotation répétée, la prédiction de gènes, l'annotation fonctionnelle et la bioinformatique en aval. La sortie finale peut inclure des fichiers d'assemblage, des fichiers d'annotation, des rapports de contrôle qualité, des résumés visuels et de la documentation de projet.

Exigences d'échantillon et informations sur l'entrée de projet

La qualité de l'échantillon a un effet direct sur la stratégie d'assemblage du génome. L'assemblage par longues lectures, l'échafaudage au niveau des chromosomes, les projets tenant compte des haplotypes et les flux de travail similaires à T2T peuvent nécessiter une planification différente des échantillons et des données.

Les exigences finales dépendent de l'espèce, de la taille du génome, du ploïdie, du type de tissu, de la méthode de conservation, du choix de la plateforme et du niveau d'assemblage cible. Avant la confirmation du projet, notre équipe examine les informations ci-dessous et recommande le flux de travail le plus adapté.

Type d'échantillon ou d'entrée	Ce que nous examinons	Orientation qualité	Informations requises sur le projet	Points de contrôle QC typiques	Remarques
Tissu frais ou congelé pour l'ADN HMW	Type de tissu, conservation, rendement en ADN attendu, risque de contamination	Fragment d'ADN long adapté aux bibliothèques de longues lectures	Espèce, estimation de la taille du génome, ploïdie, objectif en aval	Intégrité de l'ADN, pureté, concentration, taille des fragments, examen de la contamination	Les exigences finales dépendent de l'espèce, de la taille du génome, du niveau d'assemblage et de la stratégie de plateforme.
Échantillons de plantes, d'animaux, de champignons ou d'organismes non modèles.	Échantillon source, difficulté des tissus, inhibiteurs, références associées, contenu répétitif attendu	Faisabilité pour une assemblage de novo, au niveau des chromosomes, ou en phase	Espèce, source d'échantillon, taille estimée du génome, ploïdie, niveau d'assemblage cible	Examen de l'adéquation de l'échantillon, examen de la qualité de l'ADN, examen du risque de contamination	Les tissus complexes ou riches en inhibiteurs peuvent nécessiter un examen spécial avant la sélection du flux de travail.
Données de séquençage existantes	Fichiers FASTQ/BAM, plateforme, couverture, longueur de lecture, étiquettes d'échantillon, assemblage préalable	Compatibilité avec le réassemblage, le polissage, l'échafaudage ou l'annotation.	Plateforme de séquençage, cible génomique, fichiers d'assemblage antérieurs, objectif d'analyse	Intégrité des fichiers, lecture QC, révision de la couverture, révision de la faisabilité de l'assemblage	Peut soutenir le sauvetage, l'amélioration, la réanalyse ou l'annotation en aval lorsque la qualité des données est adéquate.
Fichiers d'assemblage de brouillon	Assemblage FASTA, statistiques, statut d'annotation, préoccupations de contamination, besoins en scaffolding.	Potentiel d'amélioration et adéquation en aval	Assemblage FASTA, QC existant, informations sur les espèces, niveau d'amélioration souhaité	Revue de contiguïté, revue BUSCO, vérification de contamination, revue de faisabilité des échafaudages.	Peut être amélioré par le polissage, l'échafaudage, l'annotation ou la bioinformatique personnalisée en fonction des données.

Comment lire le contrôle de qualité de l'assemblage du génome sans se fier excessivement à N50

Le N50 est largement utilisé, mais il ne devrait pas être le seul critère pour évaluer un assemblage génomique. Un N50 élevé peut refléter de longs contigs ou échafaudages, mais cela ne signifie pas automatiquement que l'assemblage est complet, précis, correctement échafaudé ou utile pour chaque analyse en aval.

métrique de QC	Ce que cela aide à évaluer	Ce à quoi cela ne répond pas complètement.
Contig N50	Continuité de l'assemblage avant l'échafaudage	Complétude, exactitude, contamination ou récupération de gènes.
Échafaudage N50	Continuité des échafaudages à long terme	Que les échafaudages soient correctement commandés et orientés.
BUSCO	Complétude de l'espace génétique en utilisant des gènes conservés	Résolution répétée, exactitude structurelle ou précision du génome complet
QV	Estimation de la précision du consensus	Structure à long terme, qualité de phasage ou utilité de l'annotation
Comparaison de la taille du génome	Que la taille de l'assemblage corresponde aux attentes.	Que la séquence soit complète ou correctement assemblée.
Revue de contamination	Séquence non ciblée ou risque d'échantillons mixtes	Interprétation biologique ou précision de l'annotation en soi
Revue de la carte de contact Hi-C	Cohérence de l'échafaudage au niveau des chromosomes	Précision de base ou complétude des gènes
Résumé de l'annotation	Préparation à la prédiction des gènes et à l'interprétation fonctionnelle	Que la structure de l'assemblage soit entièrement correcte.

N50 peut aider à décrire la continuité d'assemblage, mais il ne mesure pas tout. Un assemblage avec un N50 élevé peut toujours présenter des contaminations, des erreurs de jonction, des gènes manquants, des répétitions effondrées ou une préparation d'annotation médiocre.

BUSCO aide à évaluer l'intégrité des gènes conservés, tandis que QV peut fournir une estimation de la précision consensuelle lorsque cela est applicable. Ces métriques aident à compléter le N50, en particulier lorsque l'assemblage soutiendra la découverte de gènes, la génomique comparative ou des recherches orientées vers la publication.

Le meilleur cadre de contrôle qualité dépend de ce que l'assemblage doit supporter. Un génome utilisé pour l'annotation des gènes, l'analyse du pan-génome, la variation structurelle ou le mapping de traits peut nécessiter des vérifications différentes. Nous aidons à interpréter le contrôle qualité dans le contexte de l'objectif de recherche.

L'annotation et l'analyse en aval rendent l'assemblage utilisable.

Un assemblage de génome devient plus précieux lorsqu'il est relié à une annotation et à une analyse en aval. Pour de nombreuses équipes de recherche, l'objectif final n'est pas seulement un fichier FASTA. C'est une ressource génomique exploitable.

Annotation du génome et prédiction des gènes

Nous pouvons soutenir. Service d'annotation du génome et de prédiction des gènes pour des projets nécessitant des modèles de gènes, des séquences codantes, des séquences protéiques, une annotation fonctionnelle et des résumés d'annotation.

C'est particulièrement important pour les organismes non-modèles, les espèces avec des ressources d'annotation limitées, et les projets axés sur la découverte de gènes.

Annotation répétée et annotation fonctionnelle

L'annotation répétée aide à caractériser les éléments transposables, les régions répétitives et le contenu répétitif qui peuvent influencer la stratégie d'assemblage et l'interprétation en aval. L'annotation fonctionnelle peut aider à relier les gènes prédits avec des bases de données connues, des voies métaboliques, des familles de gènes ou des fonctions biologiques.

Génomique comparative, pan-génome, SV et soutien à la population

Lorsque l'assemblage soutiendra les études en aval, nous pourrons aider à planifier des analyses supplémentaires grâce à Analyse des données génomiques, Pan génome, Appel de varianteset Génétique des populations services.

Ces modules peuvent soutenir la génomique comparative, l'expansion des familles de gènes, la construction de pan-génomes, l'analyse des variations structurelles, la génomique des populations et la recherche liée à la reproduction.

Fichiers que votre équipe peut réutiliser pour de futures études

Assemblage FASTA
Fichiers d'annotation GFF ou GTF
Fichiers d'annotation répétés
FASTA de protéines et FASTA de CDS
rapports BUSCO et résumés QV
Sorties de scaffolding Hi-C
Tables de génomique comparative
Fichiers pan-génome ou prêts pour les SV
Rapport de projet

Choisissez une stratégie basée sur la question de recherche, pas sur le nom de la technologie.

Une bonne stratégie d'assemblage commence par la question de recherche. Nous vous aidons à déterminer quelle ressource génomique est nécessaire et quels types de données peuvent la soutenir.

Si votre objectif est un premier génome de référence.

Une stratégie de référence de novo peut être appropriée lorsqu'aucune référence proche n'existe ou lorsque vous avez besoin d'une nouvelle ressource génomique pour une espèce non modèle. Dans de nombreux cas, Service de séquençage du génome entier de novo ou Séquençage de novo du génome entier de plantes/animaux peut soutenir cet objectif.

Si votre objectif est la cartographie des traits ou le soutien à la reproduction.

L'assemblage au niveau des chromosomes peut être plus utile lorsque la position génomique est importante. Le scaffolding Hi-C peut soutenir le mapping des traits, l'analyse de liaison, la génomique comparative et la recherche liée à la reproduction.

Si votre objectif est une interprétation consciente des polyploïdes ou des haplotypes.

L'assemblage résolu par haplotype peut être nécessaire lorsque l'organisme est hautement hétérozygote, issu de croisements, hybride ou polyploïde. Cette stratégie peut aider à préserver la structure spécifique des allèles ou des sous-genomes lorsqu'elle est soutenue par des données.

Si votre objectif est le pan-génome, les SV ou la génomique des populations.

Si l'assemblage soutiendra la construction de pan-génomes, l'analyse des variations structurelles ou la génomique des populations, nous aidons à planifier l'assemblage et les résultats en aval ensemble. L'objectif est d'éviter de construire un assemblage qui semble acceptable sur le papier mais qui n'est pas adapté à l'étape d'analyse suivante.

Demande de révision de la stratégie d'assemblage

Références

Conformité / Avertissement

CD Genomics fournit ce service uniquement à des fins de recherche (RUO). Ce service n'est pas destiné à un diagnostic clinique, à une interprétation médicale directe, à la gestion des patients, à des conseils de traitement, à des tests directs aux consommateurs, ni à des revendications de découverte garanties.

Résultats de la démo

Les résultats de la démonstration aident votre équipe à comprendre ce qu'un projet d'assemblage peut offrir. Ces exemples montrent des types de résultats, pas des conclusions biologiques fixes.

Assembly continuity and chromosome scaffolding summary

Résumé de la continuité d'assemblage et de l'échafaudage des chromosomes

Cette sortie peut afficher des statistiques de contig, des statistiques de scaffold, des vues de scaffold à l'échelle chromosomique et un résumé de la carte de contact Hi-C lorsque le scaffold Hi-C est inclus.

BUSCO QV and contamination review dashboard

Tableau de bord de révision de BUSCO, QV et contamination

Cette sortie résume la complétude de l'assemblage, la qualité du consensus et l'examen de la contamination dans un format compact.

Annotation and downstream-ready output view

Vue d'annotation et de sortie prête pour le traitement en aval

Cette sortie peut afficher des résumés d'annotation de gènes, des pistes d'annotation de répétitions, des sorties de familles de gènes et des fichiers préparés pour une analyse comparative ou au niveau de la population.

FAQ

1. Qu'est-ce qu'une solution de stratégie d'assemblage de génome ?

C'est une approche de service axée sur la recherche qui vous aide à choisir et à exécuter le bon plan d'assemblage du génome en fonction de votre espèce, de la qualité de l'échantillon, de la complexité du génome, du niveau d'assemblage et des objectifs en aval.

2. Comment savoir quel niveau d'assemblage mon projet nécessite ?

Le niveau approprié dépend de la question de recherche. La découverte précoce de gènes peut nécessiter un assemblage de niveau ébauche ou contig, tandis que le cartographie des traits, la syntenie et la recherche en amélioration bénéficient souvent d'un assemblage de niveau chromosome. Des stratégies résolues par haplotype ou similaires à T2T peuvent être envisagées pour des génomes complexes ou des régions riches en répétitions.

3. Quand l'assemblage de brouillon est-il suffisant ?

L'assemblage préliminaire peut suffire pour les génomes compacts, le développement précoce de références, la découverte préliminaire de gènes ou des projets où la position à l'échelle des chromosomes n'est pas centrale. Cela peut ne pas suffire pour l'analyse de liaison, la variation structurelle, l'évolution des chromosomes ou le travail sur le pan-génome.

4. Quand devrais-je choisir un assemblage au niveau des chromosomes ?

L'assemblage au niveau des chromosomes est utile lorsque la position génomique, la structure à longue portée, le mapping des traits, la syntenie ou la génomique comparative sont importants. Des méthodes de scaffolding comme Hi-C ou des méthodes connexes peuvent être utilisées pour soutenir ce niveau.

5. Quand l'assemblage résolu par haplotype est-il important ?

L'assemblage résolu par haplotype peut être important pour les organismes hétérozygotes, issus de croisements, hybrides ou polyploïdes. Il aide à préserver les informations spécifiques aux allèles ou aux haplotypes lorsque les données et la conception du projet le permettent.

6. Quand est-il judicieux de considérer un assemblage de type T2T ?

Une stratégie similaire à T2T pourrait être envisagée lorsque les centromères, les télomères, les grandes répétitions, les lacunes non résolues ou la qualité de référence du génome de haut niveau sont au cœur de la question de recherche. Elle est plus exigeante et doit être planifiée avec soin.

7. Quelles sont les différences entre PacBio et Nanopore pour l'assemblage du génome ?

Les lectures HiFi de PacBio sont souvent appréciées pour leur assemblage de longues lectures avec une grande précision. Les lectures longues ou ultra-longues de Nanopore peuvent être utiles pour couvrir de longues répétitions et des régions complexes. De nombreux projets tirent parti du choix d'une technologie ou de la combinaison de technologies en fonction du génome et de l'objectif de recherche.

8. Pourquoi Hi-C est-il utile pour l'assemblage au niveau des chromosomes ?

Hi-C fournit des informations de contact à longue portée qui peuvent aider à ordonner et orienter les contigs en échafaudages à l'échelle des chromosomes. Cela est particulièrement utile lorsque l'analyse en aval dépend de la structure au niveau chromosomique.

9. Pourquoi ne devrais-je pas me fier uniquement à N50 ?

N50 décrit la continuité, mais ne mesure pas pleinement la complétude, l'exactitude, la contamination, le risque de mauvaise assemblage ou la préparation des annotations. Un examen de QC solide devrait combiner plusieurs métriques.

10. Quelles informations sur l'échantillon sont nécessaires avant de recommander une stratégie ?

Les informations utiles comprennent les espèces, l'estimation de la taille du génome, la ploïdie, le type d'échantillon, la méthode de conservation, la qualité de l'ADN, l'hétérozygotie attendue, les génomes de référence associés, les données de séquençage existantes et les objectifs de recherche en aval.

11. Les données de séquençage existantes ou les assemblages préliminaires peuvent-ils être améliorés ?

Oui. Les données existantes ou les assemblages préliminaires peuvent soutenir le polissage, l'échafaudage, le réassemblage, l'annotation, la révision de la contamination ou l'analyse en aval lorsque la qualité des données est adéquate.

12. Quels livrables puis-je attendre d'un projet d'assemblage de génome ?

Les livrables peuvent inclure des fichiers FASTA d'assemblage, des résumés de contrôle de qualité, des statistiques N50, des rapports BUSCO, des estimations de QV, une révision de contamination, des fichiers d'annotation, une annotation des répétitions, des sorties de scaffolding Hi-C, des fichiers prêts pour le navigateur génomique et des rapports de projet.

13. Les résultats d'assemblage du génome peuvent-ils soutenir l'annotation, le pan-génome, les variations structurales (SV) ou la génomique des populations ?

Oui. Lorsqu'elle est planifiée correctement, l'assemblage du génome peut soutenir l'annotation, la génomique comparative, l'analyse du pan-génome, l'analyse des variations structurelles et la génomique des populations. Ces besoins en aval doivent être pris en compte avant que le plan d'assemblage ne soit finalisé.

14. Ce service est-il destiné à un usage clinique ou diagnostique ?

Non. Ce service est conçu uniquement pour des projets de montage de génomes et de bioinformatique axés sur la recherche.

Cas de littérature : Hi-C Scaffolding change la façon dont les assemblages de génomes sont évalués.

Mise en avant de la recherche publiée

Évaluation des outils Hi-C pour l'assemblage des génomes végétaux obtenus à partir de lectures PacBio HiFi et ONT.

Journal : Frontières en bioinformatique
Publié : 2024

Contexte

L'assemblage du génome au niveau des chromosomes nécessite souvent plus que la génération de contigs. Les lectures Hi-C peuvent aider à ordonner et orienter de grandes régions génomiques en échafaudages, les rendant utiles pour des projets nécessitant une structure à l'échelle des chromosomes.

Méthodes

L'étude a généré deux assemblages de novo d'Arabidopsis thaliana à partir des mêmes données PacBio HiFi et Oxford Nanopore. Elle a ensuite structuré les assemblages en utilisant 3D-DNA, SALSA2 et YaHS.

Les assemblages scaffoldés ont été évalués en utilisant la continuité, la complétude, l'exactitude et la correction structurelle. Ce design est pertinent car il compare non seulement les types de données de séquençage, mais aussi le scaffolding en aval et l'interprétation de la qualité.

Résultats

L'étude a rapporté que les outils de scaffolding Hi-C ont montré des caractéristiques de performance différentes selon les assemblages évalués.
YaHS a obtenu les meilleurs résultats dans cette analyse.
La leçon plus large est importante pour la planification de projet : la qualité de l'assemblage au niveau des chromosomes dépend non seulement de la plateforme de séquençage, mais aussi de la méthode de scaffolding, de l'examen de contrôle qualité et de la correction structurelle.

Hi-C scaffolding benchmark for plant genome assemblies generated from PacBio HiFi and Oxford Nanopore reads Un benchmark de scaffolding Hi-C illustre pourquoi l'assemblage de génome au niveau des chromosomes devrait être évalué par la continuité, la complétude, la précision et la justesse structurelle plutôt que par un seul critère.

Conclusion

Ce cas soutient l'idée centrale derrière notre solution de stratégie d'assemblage du génome. La planification de l'assemblage du génome ne devrait pas se limiter au choix de PacBio, Nanopore ou Hi-C. Une stratégie solide prend également en compte le niveau d'assemblage, la méthode de scaffolding, les métriques de contrôle qualité, l'annotation et l'utilisabilité en aval.