
Commencez par le niveau d'assemblage dont votre recherche a réellement besoin.
De nombreuses pages sur l'assemblage de génomes commencent par comparer les plateformes de séquençage. En pratique, le meilleur point de départ est le niveau d'assemblage. Un génome microbien, un premier brouillon pour une espèce non modèle, un génome de plante au niveau des chromosomes et un génome animal résolu par haplotype n'ont pas besoin du même plan.
Avant de recommander un flux de travail, nous vous aidons à définir ce que l'assemblage final doit supporter. Un projet de découverte de gènes peut nécessiter une stratégie d'assemblage et d'annotation différente d'un projet axé sur la cartographie des traits, la variation structurelle, la construction de pan-génomes ou la génomique des populations.
Assemblage de niveau ébauche ou contig pour les premières ressources génomiques
Une assemblage de niveau ébauche ou contig peut être approprié lorsque votre objectif est de créer une ressource de référence précoce, de découvrir un large éventail de gènes, de reconstruire des génomes microbiens ou de réaliser une analyse comparative préliminaire. Cela peut être utile lorsque le génome est compact, que la question de recherche ne nécessite pas un ordre à l'échelle des chromosomes, ou que le projet est conçu comme une première étape avant une analyse plus approfondie.
Ce niveau peut fournir un point de départ pratique, mais il peut ne pas pleinement soutenir l'analyse de liaison, l'interprétation structurelle à l'échelle des chromosomes ou la résolution de répétitions complexes.
Assemblage au niveau des chromosomes pour des études de liaison, de traits et comparatives
L'assemblage au niveau des chromosomes est souvent nécessaire lorsque la position génomique est importante. Cela inclut le cartographie des traits, la recherche en élevage, l'évolution des chromosomes, l'analyse de la syntenie, la génomique comparative et de nombreux projets de génomes de plantes ou d'animaux.
Le scaffolding Hi-C peut aider à ordonner et orienter les contigs assemblés en échafaudages à l'échelle des chromosomes. Pour les projets où l'assemblage final soutiendra le mapping en aval ou le travail comparatif, une structure au niveau des chromosomes peut être plus précieuse qu'un assemblage fragmenté avec une haute précision locale mais une organisation à long terme limitée.
Assemblage résolu par haplotype pour des génomes hétérozygotes ou polyploïdes
Pour les organismes hautement hétérozygotes, issus de croisements, hybrides ou polyploïdes, une seule représentation réduite peut masquer une structure importante spécifique aux allèles ou aux haplotypes. Dans ces cas, un assemblage résolu par haplotype ou phasé peut être utile.
Cette stratégie peut être importante pour l'élevage de plantes et d'animaux, la découverte de gènes spécifiques à un allèle, l'analyse des variations structurelles et les projets où les sous-genomes ou les chromosomes homologues nécessitent une interprétation minutieuse.
Assemblage de type T2T lorsque les répétitions, les centromères et les télomères comptent
Une stratégie similaire à T2T peut être envisagée lorsque des lacunes non résolues, de longues répétitions, des régions centromériques, des régions télomériques ou des régions structurales complexes sont au cœur de l'étude. Il s'agit généralement d'un type de projet à plus forte demande car il dépend fortement de la qualité de l'échantillon, de la longueur des lectures, de la stratégie d'assemblage et de l'examen manuel ou personnalisé.
Tous les projets ne nécessitent pas une assemblée de type T2T. Nous vous aidons à déterminer si ce niveau de résolution est nécessaire pour votre question de recherche ou si une assemblée au niveau des chromosomes ou une assemblée phasée serait plus pratique.
Associez la stratégie de séquençage à la complexité du génome.
Une fois que le niveau d'assemblage cible est clair, la stratégie de séquençage devient plus facile à concevoir. Différents génomes nécessitent différentes couches de preuves. La taille du génome, le contenu en répétitions, la ploïdie, l'hétérozygotie, le risque de contamination et la qualité de l'échantillon affectent tous le plan d'assemblage final.
Lorsque PacBio HiFi est l'ancre de précision.
Séquençage SMRT de PacBio peut soutenir des projets d'assemblage de génomes qui nécessitent des preuves de longues lectures avec une haute précision de consensus. Les lectures PacBio HiFi sont souvent précieuses pour l'assemblage de génomes de novo car elles combinent une structure de longue lecture avec une haute précision par lecture.
PacBio HiFi peut être particulièrement utile lorsque le projet nécessite une qualité de consensus fiable, une forte récupération de l'espace génétique et une base propre pour l'annotation.
Lorsque les lectures ultra-longues de Nanopore aident à combler les répétitions.
Séquençage par nanopore peut être utile lorsque le génome contient de longues répétitions, de grandes régions structurelles ou des lacunes qui nécessitent des preuves s'étendant sur une plus longue distance. Pour certains génomes complexes, des lectures ultra-longues peuvent aider à relier des régions que des lectures plus courtes ne peuvent pas résoudre.
Les données de nanopore peuvent également être prises en compte dans des stratégies ou des projets similaires à T2T où la longueur de lecture est un avantage majeur.
Lorsque Hi-C est nécessaire pour l'échafaudage à l'échelle des chromosomes.
Service de séquençage Hi-C fournit des informations de contact à long terme qui peuvent aider à commander et à orienter les contigs en échafaudages à l'échelle des chromosomes. Cela est particulièrement pertinent lorsque l'assemblage final nécessite une structure au niveau des chromosomes.
Hi-C n'est pas simplement une décoration optionnelle. Lorsque l'objectif de recherche dépend de l'organisation à l'échelle des chromosomes, Hi-C ou une autre approche de scaffolding à longue portée peut être une partie clé de la stratégie.
Lorsque le polissage des courtes lectures ou les preuves hybrides sont encore utiles.
Le séquençage à lecture courte peut encore avoir de la valeur dans les projets d'assemblage. Il peut soutenir le polissage, la correction locale, la révision de la contamination, l'évaluation des variantes ou l'analyse complémentaire en fonction de la conception du projet.
Une stratégie hybride peut être utile lorsque un type de données ne répond pas à toutes les questions. L'objectif n'est pas d'inclure chaque technologie, mais de combiner les couches de preuves qui correspondent au génome et à l'objectif en aval.
Ce que nous examinons avant de recommander un plan d'assemblage
Un bon plan d'assemblage commence par une revue des risques. Nous ne voulons pas recommander un flux de travail haut de gamme que l'échantillon ne peut pas supporter, ni un flux de travail minimal qui ne peut pas répondre à la question de recherche en aval.
Espèces, taille du génome, ploïdie et hétérozygotie
Nous commençons par examiner l'organisme et toute information génomique disponible. Les détails utiles incluent la taille estimée du génome, la ploïdie, le contenu en répétitions connu, l'hétérozygotie attendue, les génomes de référence apparentés, et si l'espèce est domestiquée, sauvage, hybride, consanguine, non consanguine ou polyploïde.
Ces détails aident à déterminer si le projet nécessite un assemblage standard de novo, un échafaudage au niveau chromosomique, un assemblage résolu par haplotype ou une stratégie plus avancée.
Qualité de l'ADN HMW et risque d'échantillon
La qualité de l'ADN de haut poids moléculaire est l'un des facteurs les plus importants dans l'assemblage de génomes à longues lectures. Le type de tissu, la méthode de conservation, la difficulté d'extraction, la taille des fragments d'ADN, les contaminants, les polysaccharides, les polyphénols, la contamination microbienne et l'âge de l'échantillon peuvent tous affecter la construction de la bibliothèque et la continuité de l'assemblage.
Pour les échantillons difficiles, nous examinons la faisabilité avant de finaliser la stratégie d'assemblage.
Données de séquençage existantes ou assemblages préliminaires
Certains projets commencent avec des données existantes. Vous avez peut-être déjà des lectures courtes, des lectures PacBio, des lectures Nanopore, des données Hi-C ou un assemblage préliminaire fragmenté.
Dans ces cas, nous pouvons aider à évaluer si les données peuvent être réutilisées, améliorées, structurées, perfectionnées, annotées ou intégrées dans un flux de travail d'assemblage révisé.
Objectifs en aval qui affectent la conception de l'assemblage
Les objectifs en aval devraient façonner le plan d'assemblage. Un génome destiné à l'annotation des gènes peut nécessiter des priorités différentes de celui destiné à la variation structurelle, à l'analyse du pan-génome, à l'association génome-large, à la génomique des populations ou au développement de marqueurs de sélection.
Nous examinons ces objectifs tôt afin que l'assemblage soit conçu comme une ressource génomique utilisable, et pas seulement comme un fichier FASTA.
Options de stratégie d'assemblage du génome comparées
La meilleure stratégie d'assemblage du génome dépend à la fois du génome et de l'objectif de recherche. Le tableau ci-dessous résume les options courantes et comment nous aidons à les positionner.
| Stratégie | Cas d'utilisation optimal | Sensibilité des exigences d'échantillonnage | Ajustement de la complexité du génome | Considérations sur le contrôle qualité | Préparation en aval |
|---|---|---|---|---|---|
| Assemblage de brouillon à lecture courte | Génomes compacts, dépistage précoce, projets microbiens simples ou ressources préliminaires. | Modéré ; des fragments d'ADN plus courts peuvent être acceptables en fonction du projet. | Limité pour les répétitions élevées, les grands génomes et les structures complexes. | Besoin d'une révision de la couverture, d'un contrôle de contamination et d'une révision de la complétude de l'assemblage. | Peut soutenir la découverte de gènes de base ou l'analyse microbienne, mais limité pour des structures en aval complexes. |
| Assemblage PacBio HiFi | Assemblage de novo précis, récupération de l'espace génique, construction de génome de référence, projets prêts pour le phasage. | Nécessite de l'ADN de haute qualité approprié. | Forte pour de nombreux génomes de plantes, d'animaux, de champignons et de non-modèles. | Évaluez le N50 des contigs, BUSCO, QV, la complétude, la contamination et le phasage si applicable. | Base solide pour l'annotation, la génomique comparative et de nombreux projets de génomes de référence. |
| Assemblage long ou ultra-long par nanopore | Régions riches en répétitions, longues régions structurales, fermeture de lacunes, stratégies similaires à T2T. | Très sensible à la qualité de l'ADN HMW et à la longueur des fragments. | Fort lorsque la portée de lecture longue est critique | Évaluer la longueur de lecture, la couverture, la qualité du consensus, la résolution des répétitions et la stratégie de polissage. | Utile pour la structure complexe, la résolution des lacunes et l'architecture génomique à long terme. |
| Échafaudage Hi-C | Assemblage au niveau des chromosomes, liaison, syntenie, reproduction, génomique comparative | Nécessite un matériel approprié pour la préparation de la bibliothèque Hi-C. | Forte pour ordonner et orienter les contigs en échafaudages à l'échelle des chromosomes. | Évaluer la qualité de la carte de contact, l'exactitude du squelette, les erreurs de jonction et l'attribution chromosomique. | Important pour le travail en aval au niveau des chromosomes |
| Assemblage hybride | Projets nécessitant une précision complémentaire, une continuité, un polissage ou des preuves à long terme. | Dépend de tous les types de données inclus. | Flexible pour des projets complexes ou de grande valeur | Nécessite une intégration soigneuse et un contrôle qualité multiplateforme. | Forte lorsque l'assemblage doit soutenir plusieurs utilisations en aval. |
| Assemblage résolu par haplotype | Organismes hétérozygotes, hybrides, issus de croisements ou polyploïdes | Nécessite une forte qualité des données et une couverture suffisante. | Forte lorsque l'interprétation spécifique à l'allèle ou consciente du sous-génome est importante | Évaluer la précision du phasage, la séparation des haplotypes, la duplication et l'exhaustivité. | Utile pour l'élevage, l'analyse spécifique des allèles, les variations structurelles et l'interprétation de génomes complexes. |
| assemblage de type T2T | Centromères, télomères, longues répétitions, lacunes non résolues, ressources de référence premium | Très sensible à la qualité des échantillons, à la longueur de lecture et à la conception des données. | Forte pour les régions répétitives difficiles lorsqu'elle est soutenue par des données. | Évaluer la fermeture des écarts, la résolution des répétitions, la QV, la révision manuelle et la cohérence structurelle. | Utile pour des projets de référence haut de gamme et des recherches axées sur la répétition. |
| Assemblage de génomes microbiens, fongiques ou compacts | Génomes de souches bactériennes, fongiques, virales, plasmidiques ou génétiquement modifiées. | Souvent moins exigeants que les grands génomes eucaryotes, mais le contrôle de la contamination est important. | Adapté aux génomes compacts ; la stratégie dépend des plasmides, des répétitions et de la structure du génome. | Évaluer la circularisation, la contamination, les plasmides, la complétude et la qualité de l'annotation. | Utile pour la caractérisation des souches, la génomique comparative et la recherche en biologie synthétique. |
Flux de travail de bout en bout, de l'examen des échantillons à la ressource génomique utilisable.
De l'examen de faisabilité des échantillons à la conception de séquençage, l'assemblage, le contrôle qualité, l'annotation et les fichiers prêts pour l'utilisation en aval.

Un projet d'assemblage de génome passe par plusieurs points de contrôle techniques et décisionnels. Nous construisons le flux de travail autour du niveau d'assemblage final et de l'objectif de recherche en aval.
Nous examinons l'organisme, le type d'échantillon, la méthode de conservation, la qualité attendue de l'ADN et les facteurs de risque. Pour l'assemblage à longues lectures, l'ADN de haute masse moléculaire est souvent essentiel. Lorsque le risque lié à l'échantillon est élevé, nous discutons des options avant le début du séquençage.
En fonction du niveau d'assemblage cible, nous recommandons les types de données nécessaires. Cela peut inclure PacBio HiFi, Oxford Nanopore, Hi-C, le polissage des lectures courtes ou un design hybride. Le plan de séquençage doit correspondre à la complexité du génome plutôt que de suivre un modèle fixe.
Le flux de travail d'assemblage peut inclure l'assemblage de contigs, le polissage, la séparation des haplotypes, la construction de scaffolds, le classement et l'orientation basés sur Hi-C, la révision des lacunes et le raffinement de type T2T lorsque cela est approprié.
Lorsqu'il est inclus dans le projet, nous soutenons l'annotation répétée, la prédiction génique, l'annotation fonctionnelle et la bioinformatique en aval. La sortie finale peut inclure des fichiers d'assemblage, des fichiers d'annotation, des rapports de contrôle qualité, des résumés visuels et de la documentation de projet.
Exigences d'échantillon et informations sur l'entrée de projet
La qualité de l'échantillon a un effet direct sur la stratégie d'assemblage du génome. L'assemblage par longues lectures, l'échafaudage au niveau des chromosomes, les projets tenant compte des haplotypes et les flux de travail similaires à T2T peuvent nécessiter une planification différente des échantillons et des données.
Les exigences finales dépendent de l'espèce, de la taille du génome, du ploïdie, du type de tissu, de la méthode de préservation, du choix de la plateforme et du niveau d'assemblage cible. Avant la confirmation du projet, notre équipe examine les informations ci-dessous et recommande le flux de travail le plus adapté.
| Type d'échantillon ou d'entrée | Ce que nous examinons | Focus sur la qualité | Informations requises sur le projet | Points de contrôle QC typiques | Remarques |
|---|---|---|---|---|---|
| Tissu frais ou congelé pour l'ADN HMW | Type de tissu, conservation, rendement en ADN attendu, risque de contamination | Fragment d'ADN long adapté aux bibliothèques de longues lectures | Espèce, estimation de la taille du génome, ploïdie, objectif en aval | Intégrité de l'ADN, pureté, concentration, taille des fragments, revue de contamination | Les exigences finales dépendent de l'espèce, de la taille du génome, du niveau d'assemblage et de la stratégie de plateforme. |
| Échantillons de plantes, d'animaux, de champignons ou d'organismes non modèles. | Échantillon source, difficulté des tissus, inhibiteurs, références associées, contenu répétitif attendu | Faisabilité pour un assemblage de novo, au niveau des chromosomes ou en phase | Espèce, source d'échantillon, taille estimée du génome, ploïdie, niveau d'assemblage cible | Examen de l'adéquation de l'échantillon, examen de la qualité de l'ADN, examen du risque de contamination | Des tissus complexes ou riches en inhibiteurs peuvent nécessiter un examen spécial avant la sélection du flux de travail. |
| Données de séquençage existantes | Fichiers FASTQ/BAM, plateforme, couverture, longueur de lecture, étiquettes d'échantillon, assemblage préalable | Compatibilité avec le réassemblage, le polissage, l'échafaudage ou l'annotation. | Plateforme de séquençage, cible génomique, fichiers d'assemblage précédents, objectif d'analyse | Intégrité des fichiers, contrôle qualité de lecture, révision de la couverture, révision de la faisabilité de l'assemblage. | Peut soutenir le sauvetage, l'amélioration, la réanalyse ou l'annotation en aval lorsque la qualité des données est adéquate. |
| Fichiers d'assemblage de brouillon | Assemblage FASTA, statistiques, état de l'annotation, préoccupations de contamination, besoins en scaffolding. | Potentiel d'amélioration et adéquation en aval | Assemblage FASTA, contrôle qualité existant, informations sur les espèces, niveau d'amélioration souhaité. | Revue de contiguïté, revue BUSCO, vérification de contamination, revue de faisabilité des échafaudages | Peut être amélioré par le polissage, l'échafaudage, l'annotation ou la bioinformatique personnalisée en fonction des données. |
Comment lire le QC de l'assemblage du génome sans se fier excessivement au N50
Le N50 est largement utilisé, mais il ne devrait pas être le seul critère pour évaluer un assemblage génomique. Un N50 élevé peut refléter de longs contigs ou échafaudages, mais cela ne signifie pas automatiquement que l'assemblage est complet, précis, correctement échafaudé ou utile pour chaque analyse en aval.
| métrique de contrôle qualité | Ce que cela aide à évaluer | Ce à quoi cela ne répond pas complètement. |
|---|---|---|
| Contig N50 | Continuité de l'assemblage avant l'échafaudage | Complétude, exactitude, contamination ou récupération de gènes |
| Échafaudage N50 | Continuité de l'échafaudage à long terme | Que les échafaudages soient correctement commandés et orientés. |
| BUSCO | Complétude de l'espace génétique utilisant des gènes conservés | Résolution répétée, exactitude structurelle ou précision du génome entier |
| QV | Estimation de l'exactitude du consensus | Structure à longue portée, qualité de phasage ou utilité de l'annotation |
| Comparaison de la taille du génome | Que la taille de l'assemblage corresponde aux attentes | Que la séquence soit complète ou correctement assemblée. |
| Revue de contamination | Séquence non ciblée ou risque d'échantillon mixte | Interprétation biologique ou précision de l'annotation par elle-même |
| Revue de la carte de contact Hi-C | Cohérence de l'échafaudage au niveau des chromosomes | Précision de base ou intégralité des gènes |
| Résumé de l'annotation | Préparation à la prédiction des gènes et à l'interprétation fonctionnelle | Que la structure d'assemblage soit entièrement correcte. |
N50 peut aider à décrire la continuité d'assemblage, mais il ne mesure pas tout. Un assemblage avec un N50 élevé peut encore présenter des contaminations, des erreurs de jonction, des gènes manquants, des répétitions effondrées ou une préparation d'annotation médiocre.
BUSCO aide à évaluer l'intégrité des gènes conservés, tandis que QV peut fournir une estimation de l'exactitude consensuelle lorsque cela est applicable. Ces métriques complètent le N50, en particulier lorsque l'assemblage soutiendra la découverte de gènes, la génomique comparative ou la recherche orientée vers la publication.
Le meilleur cadre de contrôle qualité dépend de ce que l'assemblage doit supporter. Un génome utilisé pour l'annotation des gènes, l'analyse du pan-génome, la variation structurelle ou la cartographie des traits peut nécessiter des vérifications différentes. Nous aidons à interpréter le contrôle qualité dans le contexte de l'objectif de recherche.
L'annotation et l'analyse en aval rendent l'assemblage utilisable.
Un assemblage de génome devient plus précieux lorsqu'il est relié à une annotation et à une analyse en aval. Pour de nombreuses équipes de recherche, l'objectif final n'est pas seulement un fichier FASTA. C'est une ressource génomique utilisable.
Annotation du génome et prédiction des gènes
Nous pouvons soutenir. Service d'annotation du génome et de prédiction des gènes pour des projets nécessitant des modèles de gènes, des séquences codantes, des séquences protéiques, une annotation fonctionnelle et des résumés d'annotation.
C'est particulièrement important pour les organismes non-modèles, les espèces avec des ressources d'annotation limitées et les projets axés sur la découverte de gènes.
Annotation répétée et annotation fonctionnelle
L'annotation répétée aide à caractériser les éléments transposables, les régions répétitives et le contenu répétitif qui peuvent influencer la stratégie d'assemblage et l'interprétation ultérieure. L'annotation fonctionnelle peut aider à relier les gènes prédits avec des bases de données connues, des voies métaboliques, des familles de gènes ou des fonctions biologiques.
Génomique comparative, pan-génome, SV et soutien à la population
Lorsque l'assemblage soutiendra les études en aval, nous pourrons aider à planifier des analyses supplémentaires par le biais de Analyse des données génomiques, Pan génome, Appel de variantes, et Génétique des populations services.
Ces modules peuvent soutenir la génomique comparative, l'expansion des familles de gènes, la construction de pan-génomes, l'analyse des variations structurelles, la génomique des populations et la recherche liée à la reproduction.
Fichiers que votre équipe peut réutiliser pour de futures études
- Assemblage FASTA
- Fichiers d'annotation GFF ou GTF
- Fichiers d'annotation répétés
- FASTA de protéines et FASTA de CDS
- rapports BUSCO et résumés QV
- Sorties de scaffolding Hi-C
- Tables de génomique comparative
- Fichiers pan-génome ou prêts pour les SV
- Rapport de projet
Choisissez une stratégie basée sur la question de recherche, pas sur le nom de la technologie.
Une bonne stratégie d'assemblage commence par la question de recherche. Nous vous aidons à déterminer quelle ressource génomique est nécessaire et quels types de données peuvent la soutenir.
Si votre objectif est un premier génome de référence.
Une stratégie de référence de novo peut être appropriée lorsqu'aucune référence proche n'existe ou lorsque vous avez besoin d'une nouvelle ressource génomique pour une espèce non modèle. Dans de nombreux cas, Service de séquençage du génome entier de novo ou Séquençage de novo du génome complet de plantes/animaux peut soutenir cet objectif.
Si votre objectif est la cartographie des traits ou le soutien à la reproduction.
L'assemblage au niveau des chromosomes peut être plus utile lorsque la position génomique est importante. Le scaffolding Hi-C peut soutenir le mapping des traits, l'analyse de liaison, la génomique comparative et la recherche liée à la reproduction.
Si votre objectif est une interprétation consciente des polyploïdes ou des haplotypes.
L'assemblage résolu par haplotype peut être nécessaire lorsque l'organisme est fortement hétérozygote, hybride, ou polyploïde. Cette stratégie peut aider à préserver la structure spécifique des allèles ou des sous-genomes lorsqu'elle est soutenue par des données.
Si votre objectif est le pan-génome, les variations structurelles (SV) ou la génomique des populations.
Si l'assemblage soutiendra la construction de pan-génomes, l'analyse des variations structurelles ou la génomique des populations, nous aidons à planifier l'assemblage et les résultats en aval ensemble. L'objectif est d'éviter de construire un assemblage qui semble acceptable sur le papier mais qui n'est pas adapté à l'étape d'analyse suivante.
Références
- Évaluation des outils Hi-C pour l'assemblage des génomes végétaux obtenus à partir de lectures PacBio HiFi et ONT
- Assemblage de chromosomes diploïdes de télomère à télomère avec Verkko
- Assemblage évolutif de télomère à télomère pour les génomes diploïdes et polyploïdes avec un double graphe
- Comparaison d'assemblages à l'échelle des chromosomes du génome de référence coréen KOREF provenant de PromethION et PacBio avec des informations de cartographie Hi-C.
- Évaluation des outils Hi-C pour l'assemblage des génomes végétaux obtenus à partir de lectures PacBio HiFi et ONT — enregistrement PMC
Conformité / Avertissement
CD Genomics fournit ce service uniquement à des fins de recherche (RUO). Ce service n'est pas destiné à un diagnostic clinique, à une interprétation médicale directe, à la gestion des patients, à des conseils de traitement, à des tests directs aux consommateurs, ou à des revendications de découverte garanties.
Résultats de la démo
Les résultats de la démonstration aident votre équipe à comprendre ce qu'un projet d'assemblage peut offrir. Ces exemples montrent des types de résultats, pas des conclusions biologiques fixes.

Résumé de la continuité de l'assemblage et de l'échafaudage des chromosomes
Cette sortie peut afficher des statistiques de contigs, des statistiques de scaffolds, des vues de scaffolds à l'échelle chromosomique et un résumé de la carte de contact Hi-C lorsque le scaffolding Hi-C est inclus.

TABLEAU DE BORD DE REVUE DE BUSCO, QV ET CONTAMINATION
Cette sortie résume la complétude de l'assemblage, la qualité du consensus et l'examen de la contamination dans un format compact.

Vue d'annotation et de sortie prête pour le traitement en aval
Cette sortie peut montrer des résumés d'annotation de gènes, des pistes d'annotation de répétitions, des sorties de familles de gènes et des fichiers préparés pour une analyse comparative ou au niveau de la population.
FAQ
1. Qu'est-ce qu'une solution de stratégie d'assemblage de génome ?
C'est une approche de service axée sur la recherche qui vous aide à choisir et à exécuter le bon plan d'assemblage de génome en fonction de votre espèce, de la qualité de l'échantillon, de la complexité du génome, du niveau d'assemblage et des objectifs en aval.
2. Comment savoir quel niveau d'assemblage mon projet nécessite ?
Le niveau approprié dépend de la question de recherche. La découverte précoce de gènes peut nécessiter un assemblage au niveau de brouillon ou de contig, tandis que le mapping des traits, la syntenie et la recherche en amélioration bénéficient souvent d'un assemblage au niveau des chromosomes. Des stratégies résolvant les haplotypes ou similaires à T2T peuvent être envisagées pour les génomes complexes ou les régions riches en répétitions.
3. Quand l'assemblage de brouillon est-il suffisant ?
L'assemblage préliminaire peut suffire pour les génomes compacts, le développement précoce de références, la découverte préliminaire de gènes ou des projets où la position à l'échelle chromosomique n'est pas centrale. Cela peut ne pas être suffisant pour le lien, la variation structurelle, l'évolution des chromosomes ou le travail sur le pan-génome.
4. Quand devrais-je choisir un assemblage au niveau des chromosomes ?
L'assemblage au niveau des chromosomes est utile lorsque la position génomique, la structure à longue portée, le mapping des traits, la syntenie ou la génomique comparative sont importants. Des méthodes de scaffolding comme Hi-C ou des méthodes connexes peuvent être utilisées pour soutenir ce niveau.
5. Quand l'assemblage résolu par haplotype est-il important ?
L'assemblage résolu par haplotype peut être important pour les organismes hétérozygotes, issus de croisements, hybrides ou polyploïdes. Il aide à préserver les informations spécifiques aux allèles ou aux haplotypes lorsque les données et la conception du projet le permettent.
6. Quand est-il judicieux de considérer l'assemblage de type T2T ?
Une stratégie similaire à T2T pourrait être envisagée lorsque les centromères, les télomères, les grandes répétitions, les lacunes non résolues ou la qualité des génomes de référence de haut niveau sont au cœur de la question de recherche. Elle est plus exigeante et doit être planifiée avec soin.
7. Quelles sont les différences entre PacBio et Nanopore pour l'assemblage du génome ?
Les lectures HiFi de PacBio sont souvent appréciées pour l'assemblage de longues lectures avec une grande précision. Les longues lectures ou les lectures ultra-longues de Nanopore peuvent être utiles pour couvrir de longues répétitions et des régions complexes. De nombreux projets bénéficient du choix d'une technologie ou de la combinaison de technologies en fonction du génome et de l'objectif de recherche.
8. Pourquoi le Hi-C est-il utile pour l'assemblage au niveau des chromosomes ?
Hi-C fournit des informations de contact à longue portée qui peuvent aider à ordonner et orienter les contigs en échafaudages à l'échelle des chromosomes. Cela est particulièrement utile lorsque l'analyse en aval dépend de la structure au niveau des chromosomes.
9. Pourquoi ne devrais-je pas me fier uniquement à N50 ?
N50 décrit la continuité, mais ne mesure pas pleinement la complétude, l'exactitude, la contamination, le risque de mauvaise assemblage ou la préparation des annotations. Un examen de QC solide devrait combiner plusieurs métriques.
10. Quelles informations sur l'échantillon sont nécessaires avant de recommander une stratégie ?
Les informations utiles comprennent les espèces, l'estimation de la taille du génome, le ploïdie, le type d'échantillon, la méthode de conservation, la qualité de l'ADN, l'hétérozygotie attendue, les génomes de référence associés, les données de séquençage existantes et les objectifs de recherche en aval.
11. Les données de séquençage existantes ou les assemblages préliminaires peuvent-ils être améliorés ?
Oui. Les données existantes ou les assemblages de brouillon peuvent soutenir le polissage, l'échafaudage, le réassemblage, l'annotation, la révision de contamination ou l'analyse en aval lorsque la qualité des données est adéquate.
12. Quels livrables puis-je attendre d'un projet d'assemblage de génome ?
Les livrables peuvent inclure des fichiers FASTA d'assemblage, des résumés de contrôle de qualité, des statistiques N50, des rapports BUSCO, des estimations de QV, une revue de contamination, des fichiers d'annotation, une annotation des répétitions, des sorties de scaffolding Hi-C, des fichiers prêts pour le navigateur génomique et des rapports de projet.
13. Les résultats d'assemblage du génome peuvent-ils soutenir l'annotation, le pan-génome, les variations structurelles (SV) ou la génomique des populations ?
Oui. Lorsqu'il est correctement planifié, l'assemblage du génome peut soutenir l'annotation, la génomique comparative, l'analyse du pan-génome, l'analyse des variations structurelles et la génomique des populations. Ces besoins en aval doivent être pris en compte avant que le plan d'assemblage ne soit finalisé.
14. Ce service est-il destiné à un usage clinique ou diagnostique ?
Non. Ce service est conçu uniquement pour des projets de montage de génomes et de bioinformatique axés sur la recherche.
Cas de littérature : Les changements de scaffolding Hi-C modifient l'évaluation des assemblages génomiques.
Point fort de la recherche publiée
Journal : Frontières en bioinformatique
Publié : 2024
Contexte
L'assemblage du génome au niveau des chromosomes nécessite souvent plus que la génération de contigs. Les lectures Hi-C peuvent aider à ordonner et orienter de grandes régions génomiques en échafaudages, ce qui les rend utiles pour les projets nécessitant une structure à l'échelle des chromosomes.
Méthodes
L'étude a généré deux assemblages de novo d'Arabidopsis thaliana à partir des mêmes données PacBio HiFi et Oxford Nanopore. Elle a ensuite structuré les assemblages en utilisant 3D-DNA, SALSA2 et YaHS.
Les assemblages scaffoldés ont été évalués en utilisant la continuité, la complétude, l'exactitude et la correction structurelle. Ce design est pertinent car il compare non seulement les types de données de séquençage, mais aussi le scaffolding en aval et l'interprétation de la qualité.
Résultats
- L'étude a rapporté que les outils de scaffolding Hi-C ont montré des caractéristiques de performance différentes selon les assemblages évalués.
- YaHS a obtenu les meilleurs résultats dans cette analyse.
- La leçon plus large est importante pour la planification de projet : la qualité de l'assemblage au niveau des chromosomes dépend non seulement de la plateforme de séquençage, mais aussi de la méthode de scaffolding, de l'examen de contrôle qualité et de la correction structurelle.
Un banc d'essai de scaffolding Hi-C illustre pourquoi l'assemblage du génome au niveau des chromosomes devrait être évalué par la continuité, la complétude, l'exactitude et la correction structurelle plutôt que par un seul critère.
Conclusion
Ce cas soutient l'idée centrale derrière notre solution de stratégie d'assemblage du génome. La planification de l'assemblage du génome ne devrait pas se limiter au choix entre PacBio, Nanopore ou Hi-C. Une stratégie solide prend également en compte le niveau d'assemblage, la méthode de scaffolding, les métriques de contrôle qualité, l'annotation et l'utilisabilité en aval.
