Qu'est-ce que le séquençage du génome entier de novo ?
Le séquençage de novo de l'ensemble du génome est le processus d'assemblage d'un génome complet à partir de zéro — sans s'appuyer sur une séquence de référence préexistante. Contrairement au resequencement, qui aligne les lectures sur un génome connu, l'assemblage de novo reconstruit le génome directement à partir des fragments de séquençage, ce qui en fait la méthode de choix pour les espèces qui n'ont pas de génome de référence ou pour les projets qui nécessitent une vue impartiale du contenu génomique.
CD Genomics propose des services complets de séquençage de génomes de novo couvrant tout le spectre de la complexité biologique — des génomes viraux, bactériens et fongiques aux grands génomes de plantes et d'animaux. Notre approche multi-plateforme intègre des lectures courtes Illumina, des lectures longues PacBio HiFi, des lectures ultra-longues Oxford Nanopore et des données d'interaction de chromatine Hi-C pour fournir des assemblages allant de la qualité de brouillon standard à une résolution sans faille de télomère à télomère (T2T), y compris la construction de pan-génomes lorsque la diversité au niveau de la population est nécessaire.
Séquençage De Novo à Travers Tous les Types d'Organismes
Le séquençage de novo du génome n'est pas un service universel. Différents groupes d'organismes présentent des défis distincts en termes de taille du génome, de ploïdie, de contenu en répétitions et d'hétérozygotie. Notre portefeuille de services est structuré pour répondre à ces différences avec des stratégies expérimentales et analytiques sur mesure.

Séquençage de génome entier de novo microbien (Viral / Bactérien / Fongique)
Les génomes microbiens varient de quelques kilobases (virus) à des dizaines de mégabases (champignons). Notre flux de travail de dé novo microbien combine des lectures longues ONT ou PacBio pour un assemblage contigu avec des lectures courtes Illumina en option pour le polissage. Cette approche hybride produit systématiquement des chromosomes circulaires complets et des plasmides entièrement assemblés.
- Génomes viraux — Assemblage sans référence pour les virus ADN et ARN. Consultez notre service de séquençage du génome viral.
- Génomes bactériens — Assemblage complet de chromosomes et de plasmides avec détection de méthylation. Visitez séquençage de novo du génome bactérien entier.
- Génomes fongiques — Des levures aux champignons filamenteux, y compris les régions riches en répétitions. Explorez notre service de séquençage de génome entier de novo pour les champignons.
Séquençage de novo du génome complet des plantes et des animaux
Les génomes des plantes et des animaux sont plus grands et plus complexes, impliquant souvent la polyploïdie, une forte hétérozygotie et de grandes fractions d'éléments répétitifs. Notre flux de travail standard intègre l'enquête génomique (Illumina, ~50×), le backbone en longues lectures (PacBio HiFi, 30–60×), le scaffolding Hi-C (≥100×) et la fermeture de gaps ultra-longs ONT en option. Cette stratégie permet régulièrement d'obtenir des assemblages au niveau des chromosomes pour les cultures, le bétail, la faune et les espèces aquatiques. Voir notre section dédiée. séquençage de novo du génome entier des plantes et des animaux page.
Assemblage du génome Telomère à Telomère (T2T)
Lorsque les assemblages de référence standard contiennent encore des lacunes non résolues — dans les centromères, les télomères, les duplications segmentaires ou les ensembles d'ADN ribosomique — l'assemblage T2T est la prochaine étape. L'assemblage T2T vise à une reconstruction sans lacunes de chaque chromosome d'une extrémité à l'autre. Le projet Earth BioGenome définit la qualité T2T comme l'absence de lacunes de séquence avec une précision de base QV > 60.
Notre synergie technologique
| Composant | Rôle | Plateforme |
|---|---|---|
| Ancre de précision | Colonne vertébrale haute fidélité avec précision de base. | PacBio HiFi (15–20 kb, Q20+) |
| Constructeur de ponts | Lectures ultra-long couvrant les centromères et les ensembles d'ADNr | ONT ultra-long (N50 > 100 kb) |
| Architecte en échafaudage | Ordonnancement des chromosomes et validation structurelle | Hi-C ou Pore-C |
La combinaison de la précision HiFi avec l'ultra-longue continuité ONT s'est avérée efficace même dans des génomes polyploïdes complexes. Une revue de 2024 dans Nature Génétique (Garg et al., doi:10.1038/s41588-024-01830-7) met en lumière comment les stratégies T2T sont désormais appliquées à des cultures avec une haute ploïdie et de grandes fractions répétées, transformant la résolution de la génomique végétale.
Notre portefeuille de services T2T comprend trois niveaux : Vertébré T2T (génomes de grande taille en Go), Plante T2T (cultures polyploïdes et génomes riches en répétitions), et Bactérien T2T (chromosomes circulaires fermés sans espaces). Pour des informations détaillées, consultez notre service de séquençage de télomère à télomère.

Analyse du Pan-Génome
Un génome de référence unique capture le contenu génétique d'un individu, mais ne peut pas représenter la pleine diversité génétique d'une espèce. L'analyse du pan-génome aborde cela en construisant un répertoire génétique complet à travers plusieurs individus ou souches.
Les pan-génomes se composent de :
- Génome de base — Gènes présents chez tous les individus, généralement responsables de fonctions biologiques essentielles.
- Génome variable (accessoire) — Gènes présents dans un sous-ensemble d'individus, souvent responsables de traits adaptatifs, de facteurs de virulence ou de fonctions spécifiques à une souche.
Notre flux de travail pan-génomique prend en charge à la fois les approches linéaires et basées sur des graphes :
- Assemblage de novo de plusieurs individus en utilisant la même stratégie multi-plateforme.
- Classification du génome central/accessoire
- Analyse de la variation de présence-absence des gènes (PAV)
- Analyse phylogénétique basée sur le contenu génétique
- Construction de pan-génome basé sur des graphes en option pour des ensembles de données complexes
Un minimum de deux échantillons est nécessaire, mais des tailles d'échantillons plus grandes (dizaines à centaines) offrent une couverture de plus en plus complète. Visitez notre service d'analyse du pan-génome pour plus de détails.

Stratégie technologique et de plateforme
Le choix de la bonne plateforme de séquençage pour un projet de génome de novo dépend de la taille du génome, de sa complexité et de la qualité d'assemblage souhaitée. Le tableau ci-dessous résume les rôles complémentaires de chaque plateforme dans notre flux de travail.
| Plateforme | Lire le type | Longueur typique | Précision | Rôle principal dans l'assemblage de novo |
|---|---|---|---|---|
| Illumina | Courte paire d'extrémités | 150 pb × 2 | >Q30 | Sondage génomique, polissage, validation des variants |
| PacBio HiFi | Consensus circulaire | 15–20 Ko | >Q20 (99,9%) | Arrière-plan de contig principal, résolution de haplotypes |
| Oxford Nanopore | Lectures longues natives | 10–100+ ko | Varie selon le basecaller | Fermeture de lacunes, répétition de chevauchement, détection de SV |
| Hi-C | Capture de conformation de la chromatine | PE150 | >Q30 | Ancrage et échafaudage des chromosomes |
Pour la plupart des projets de novo sur les plantes et les animaux, une stratégie hybride combinant HiFi (30–60×) avec Hi-C (≥100×) permet d'obtenir des assemblages à l'échelle des chromosomes avec des valeurs N50 de contig dépassant 10 Mb. L'ajout de lectures ultra-longues ONT (40–100×) permet une résolution T2T. Pour les génomes microbiens, une approche hybride plus simple ONT + Illumina est généralement suffisante pour générer des assemblages complets et fermés.
Flux de travail de séquençage de génome de novo
Notre flux de travail de bout en bout est conçu pour maintenir la traçabilité des échantillons et le contrôle de la qualité à chaque étape, de la réception des échantillons à la livraison des données finales.

1. Échantillon QC
Évaluation de l'intégrité par PFGE ou Femto Pulse. Contrôles de pureté (OD260/280, OD260/230, quantification Qubit). Élimination de l'ARN et quantification de l'ADN.
2. Enquête génomique (Illumina)
Séquençage à lecture courte avec une couverture d'environ 50× pour l'analyse des k-mers. La sortie inclut une estimation de la taille du génome, le taux d'hétérozygotie, le contenu en répétitions et le contenu en GC.
3. Séquençage à long-lecture
Préparation de bibliothèque et séquençage PacBio HiFi (30–60×) et/ou ONT ultra-long. Sélection de la plateforme basée sur la complexité du génome et l'envergure du projet.
4. Assemblage et échafaudage
Assemblage de novo utilisant hifiasm ou équivalent. Lectures Hi-C pour l'assemblage au niveau des chromosomes avec 3D-DNA ou pipelines équivalents.
5. Polissage et fermeture des écarts
Polissage des lectures courtes pour correction de base. Lectures ultra-longues ONT pour résoudre les lacunes restantes. Affinement itératif jusqu'à ce que la qualité cible soit atteinte.
6. Évaluation de la qualité
BUSCO évaluation de la complétude, métriques de contiguïté (N50), estimation de la qualité basée sur les k-mers (Merqury) et LAI pour les génomes végétaux. Validation de la carte de contact Hi-C.
7. Annotation du génome (facultatif)
Masquage de répétitions, prédiction de la structure des gènes, annotation fonctionnelle (GO, KEGG, Pfam, InterPro) et identification des ARN non codants.
Analyse bioinformatique
Notre pipeline de bioinformatique est conçu pour fournir des données génomiques exploitables, pas seulement des séquences brutes.
Les livrables standard incluent :
- Rapport d'enquête génomique — Analyse des K-mers avec des estimations de taille, d'hétérozygotie et de répétitions
- Assemblage de novo — Format FASTA avec haplotypes principaux et alternatifs si applicable
- Évaluation de la qualité de l'assemblage — Contig N50, scaffold N50, complétude BUSCO, score QV, LAI (plantes)
- Annotation du génome — Éléments répétés, prédiction de la structure des gènes, annotation fonctionnelle (GO, KEGG, Pfam, InterPro)
- Validation Hi-C — Vérification de la carte de contact et de l'ancrage des chromosomes
- Rapport QC complet
Analyses complémentaires optionnelles :
- Génomique comparative — regroupement d'orthologues, expansion/contraction de familles de gènes, phylogénie, syntenie
- Construction du pan-génome — classification du génome central/accessoire, analyse PAV, représentation basée sur des graphes
- Assemblage et phasage résolus par haplotypes
- Analyse épigénétique — Détection de la méthylation 5mC (PacBio HiFi ou ONT natif)

Exigences d'échantillon
Une qualité d'échantillon adéquate est la base d'un assemblage de génome de novo réussi, en particulier pour le séquençage à longues lectures et Hi-C.
| Type d'échantillon | Entrée recommandée | Concentration | Pureté (OD260/280) | Remarques |
|---|---|---|---|---|
| ADNg de haut poids moléculaire | ≥1–5 µg | ≥30 ng/µL | 1,8–2,0 | Tissu frais préféré pour les projets de séquençage long ; pas de dégradation. |
| Tissu (pour extraction) | ≥100 mg de poids frais | — | — | Congelé instantanément dans de l'azote liquide ; éviter RNAlater pour l'ADN HMW. |
| Sang total (vertébré) | ≥2 mL | — | — | Anticoagulant EDTA ; à conserver à 4°C, expédier avec des packs réfrigérants. |
| Pellet de culture microbienne | ≥10⁸ cellules (bactéries) ≥10⁷ cellules (champignons) |
— | — | Congelé instantanément ou dans un tampon de préservation de l'ADN |
| Échantillon Hi-C | Même source que l'ADN principal | — | — | Nécessite un tissu frais réticulé ; ne peut pas utiliser d'ADN archivé. |
Tous les échantillons subissent un contrôle qualité en interne à leur réception. Nous proposons également des services d'extraction d'ADN pour les projets où la préparation des échantillons est une préoccupation.
Livrables
CD Genomics fournit des livrables complets et organisés pour chaque projet de séquençage de génome de novo, adaptés à une analyse en aval et à une publication sans accroc.
| Livrable | Description |
|---|---|
| Données de séquençage brutes | Fichiers FASTQ par plateforme et bibliothèque |
| Fichiers d'assemblage | Assemblage du génome au format FASTA (haplotypes principaux + alternatifs si applicable) |
| Rapport de qualité d'assemblage | Métriques N50, complétude BUSCO, score QV, LAI (plantes), validation Hi-C |
| Annotation du génome | Fichier d'annotation GFF3 (répétition, structure génique, annotation fonctionnelle) |
| Rapport d'analyse comparative | Optionnel — tableaux d'orthologues, phylogénie, blocs de syntenie, résultats PAV |
| Documentation du projet | Résumé des méthodes, journaux de logiciels et de paramètres, guide d'utilisation des données |
Pourquoi choisir CD Genomics pour le séquençage de génome de novo ?
Des plateformes de séquençage avancées à la livraison de données de haute qualité, CD Genomics propose une solution efficace, de bout en bout, adaptée à divers besoins de séquençage de génomes de novo.
- Couverture à spectre complet — Des génomes viraux et bactériens aux assemblages complexes de plantes et d'animaux. Un fournisseur, un point de contact.
- Stratégie multiplateforme — Illumina, PacBio HiFi, Oxford Nanopore et Hi-C disponibles en interne. Combinaisons de plateformes adaptées à chaque génome.
- Antécédents éprouvés — Projets de génomes de novo complétés pour diverses espèces, respectant les normes de référence EBP (6.C.Q40 ou supérieur).
- capacité T2T — Service T2T dédié utilisant la synergie HiFi + ultra-long ONT pour les vertébrés, les plantes et les bactéries.
- Service de bout en bout — Échantillonnage QC, préparation de bibliothèque, séquençage, assemblage, annotation et analyse pan-génomique optionnelle dans un seul flux de travail.
CD Genomics s'engage à soutenir vos découvertes génomiques avec des services de séquençage de génome de novo fiables et complets.

Séquençage de génome de novo : d'une espèce à une assemblée prête pour publication
Résultats de la démo
Voici des types de données représentatifs générés lors d'un projet typique de séquençage de génome de novo. Les résultats varieront en fonction de l'espèce et de l'ampleur du projet.
Figure 1 : Distribution des K-mers (Enquête génomique)
Graphique de fréquence des K-mers à partir de données de courtes lectures, utilisé pour estimer la taille du génome, l'hétérozygotie et le contenu en répétitions. Cette analyse guide la sélection de la plateforme en aval et les cibles de couverture.
Figure 2 : Carte thermique des interactions chromatiniennes Hi-C
Carte de contact Hi-C à l'échelle du génome utilisée pour ordonner et orienter les contigs en échafaudages à l'échelle des chromosomes. Un signal diagonal fort indique un échafaudage correct.
Figure 3 : Évaluation de la complétude BUSCO
Pourcentage de gènes BUSCO complets, fragmentés, dupliqués et manquants. Les assemblages de qualité référence atteignent généralement des scores BUSCO complets supérieurs à 95 %.
Figure 4 : Comparaison de la continuité d'assemblage
Comparaison illustrative des valeurs N50 des contigs selon les stratégies. Les approches hybrides combinant PacBio HiFi et Hi-C produisent systématiquement la plus grande continuité. (Référence : Hotaling et al., BMC Genomics, 2023)
Référence
- Hotaling, et al. Des lectures longues très précises sont cruciales pour réaliser le potentiel de la génomique de la biodiversité. BMC Genomics. 2023. Je suis désolé, mais je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.
FAQ sur le séquençage de génome de novo
1. Quels types d'organismes pouvez-vous séquencer en utilisant le séquençage de génome entier de novo ?
Nous proposons un séquençage de novo pour les virus, les bactéries, les champignons, les plantes et les animaux — allant des petits génomes microbiens (quelques kb) aux grands génomes de vertébrés et de plantes (échelle de gigabases). Les stratégies de plateforme sont adaptées à chaque groupe d'organismes.
2. Quelle est la différence entre l'assemblage standard de novo et l'assemblage de génome T2T ?
L'assemblage standard de novo résout généralement plus de 95 % du génome, mais laisse des lacunes dans les régions répétitives telles que les centromères, les télomères et l'ADN ribosomal. L'assemblage T2T comble ces lacunes en utilisant des lectures ultra-longues, produisant un génome sans lacunes avec tous les chromosomes de télomère à télomère. Le projet Earth BioGenome (EBP) définit la qualité T2T comme zéro lacune avec un QV > 60.
3. Combien d'échantillons sont nécessaires pour une analyse du pan-génome ?
Un minimum de deux individus est requis, mais des tailles d'échantillon plus importantes (généralement de 10 à 100+) offrent une couverture plus complète de la diversité génétique de l'espèce. Le nombre optimal dépend de la structure de la population, de la diversité génétique et des objectifs de recherche.
4. Quelles plateformes de séquençage utilisez-vous pour l'assemblage de génomes de novo ?
Nous utilisons Illumina (courtes lectures pour l'enquête et le polissage), PacBio HiFi (lectures longues à haute précision pour l'assemblage de l'ossature), Oxford Nanopore (lectures ultra-longues pour la fermeture des lacunes et la résolution des répétitions), et Hi-C (échafaudage à l'échelle chromosomique). La combinaison de plateformes est personnalisée pour chaque projet.
5. Quels indicateurs de qualité sont utilisés pour évaluer les assemblages de génomes ?
Les métriques standard incluent le N50 des contigs, le N50 des échafaudages (contiguïté), la complétude BUSCO (contenu génétique, visant >90–95% complet), le score QV (précision des bases, visant ≥Q40 selon les normes EBP), le LAI (pour les génomes de plantes) et la validation de la carte de contact Hi-C (correction structurelle).
6. Quelles sont les exigences d'échantillon pour le séquençage de génome de novo ?
Pour les projets standard de novo, un ADN génomique de haut poids moléculaire avec un OD260/280 de 1,8 à 2,0 et une dégradation minimale est recommandé. Les quantités d'entrée varient de ≥1 µg (lecture courte) à ≥5 µg (lecture longue). Les tissus frais sont préférés pour l'extraction d'ADN HMW. Voir la section Exigences d'échantillon ci-dessus pour des directives détaillées.
7. Pouvez-vous assembler des génomes polyploïdes ou fortement hétérozygotes ?
Oui. Notre approche basée sur PacBio HiFi est spécifiquement conçue pour résoudre des génomes complexes. Les lectures HiFi fournissent la précision nécessaire pour la séparation des haplotypes chez les polyploïdes, et une couverture plus élevée (≥60×) est appliquée pour les espèces avec une hétérozygotie ou un ploïdie élevées. Une revue de 2024 dans Nature Génétique (doi:10.1038/s41588-024-01830-7) documents des assemblages T2T réussis à travers des cultures polyploïdes en utilisant ces mêmes stratégies.
8. Quelle analyse bioinformatique est incluse dans le service de séquençage de novo ?
La bioinformatique standard comprend l'enquête génomique (analyse des k-mers), l'assemblage de novo, l'évaluation de la qualité de l'assemblage et l'annotation structurelle/fonctionnelle. Les modules optionnels incluent la génomique comparative (famille de gènes, syntenie, phylogénie), la construction de pan-génomes, l'assemblage résolu par haplotype et l'analyse épigénétique.
Étude de cas : Génome de télomère à télomère de Fraise des bois
Mise en avant de la publication en libre accès
Le génome telomère à telomère de Fragaria vesca révèle l'évolution génomique de Fragaria et l'origine de la fraise octoploïde cultivée.
Journal : Recherche en horticulture
Facteur d'impact : 8,7
Publié : 2023
Contexte
Fraise des bois La (fraise des bois) est un système modèle pour le développement des fruits, les interactions plante-pathogène et la génomique fonctionnelle. Malgré son importance, les assemblages de génomes précédents manquaient de continuité avec des lacunes dans les régions répétitives et des centromères non résolus, limitant ainsi les études génomiques structurelles et fonctionnelles.
Méthodes
L'étude a utilisé le séquençage à long lire PacBio HiFi combiné à la capture de conformation de chromatine Hi-C. L'assemblage a utilisé hifiasm pour la génération de contigs principaux et 3D-DNA pour l'échafaudage guidé par Hi-C, suivi d'une curation manuelle pour combler les lacunes restantes.
Résultats
- Assemblage final T2T : 220,8 Mb sur l'ensemble des 7 chromosomes sous forme de contigs uniques.
- Tous les 14 télomères et 7 centromères identifiés avec précision.
- BUSCO complétude : 98,2 %
- Zéro lacunes sur tous les chromosomes
Conclusion
Ce génome T2T fournit une référence sans lacunes pour la génomique de Fragaria, permettant une analyse précise de la structure des centromères, de la biologie des télomères et des dynamiques évolutives. La stratégie d'assemblage démontre que la résolution T2T est réalisable pour les génomes végétaux en utilisant PacBio HiFi et Hi-C — la même approche que nous appliquons dans notre service de séquençage T2T.
Figure 1 de Sun P, et al. Horticulture Research, 2023. Idéogrammes chromosomiques de l'assemblage T2T de Fragaria vesca.
Référence
- Sun P, et al. Le génome de Fragaria vesca, de télomère à télomère, révèle l'évolution génomique de Fragaria et l'origine de la fraise octoploïde cultivée. Recherche en horticulture. 2023. Désolé, je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici.
Publications connexes
Voici des publications de projets utilisant le séquençage de génome de novo et des services génomiques associés :
Une assemblage de novo des séquences de jeux de données génomiques de la mouche des racines de betterave sucrière Tetanops myopaeformis.
Journal : Données en Bref
Année : 2024
Les combinaisons de bactériophages sont efficaces contre Pseudomonas aeruginosa résistant à plusieurs médicaments et augmentent la sensibilité aux antibiotiques carbapénèmes.
Journal : Virus
Année : 2024
Influences génétiques et environnementales sur les distributions de trois polymorphismes d'inversion chromosomique chez Anopheles gambiae
Journal : PLOS Génétique
Année : 2025
L'héritage génétique de la fragmentation et de la surexploitation de la plante médicinale menacée Aquilaria sinensis
Journal : Scientific Reports
Année : 2020
Génération d'une souche hautement atténuée de Pseudomonas aeruginosa pour la production commerciale d'alginate
Journal : Biotechnologie Microbienne
Année : 2020
Analyse du génome et études de réplication du virus simien à mousse de singe vert africain, sérotype 3, souche FV2014
Journal : Virus
Année : 2020
Cartographie à haute densité et analyse des gènes candidats Pl18 et Pl20 chez le tournesol par séquençage de génome entier.
Journal : Revue internationale des sciences moléculaires
Année : 2020
L'identification des facteurs nécessaires à la méthylation de l'ARNm m6A chez Arabidopsis révèle un rôle pour la ligase ubiquitine E3 conservée HAKAI.
Journal : New Phytologist
Année : 2017
Voir plus articles publiés par nos clients.
