What is de novo genome assembly, and when is it needed?

De novo genome assembly reconstructs a complete genome sequence from overlapping sequencing reads without a reference template. It is required when no high-quality reference genome exists for the species — which is the case for the vast majority of plants and animals on Earth.

How much does de novo genome sequencing cost for a plant or animal genome?

Cost scales with genome size and complexity. A 500 Mb diploid genome at chromosome-scale costs approximately $5,000-10,000. A 1-2 Gb genome at T2T quality costs $10,000-20,000. Large polyploid plant genomes (5-16 Gb) can cost $20,000-35,000.

Why is a genome survey recommended before full de novo sequencing?

A $200-500 genome survey (shallow Illumina + GenomeScope k-mer analysis) estimates genome size, heterozygosity, repeat content, and ploidy. This information determines how much sequencing is needed, which platforms are optimal, and whether specialized phasing or polyploid-aware assembly strategies are required.

What is the difference between chromosome-scale and T2T assembly?

A chromosome-scale assembly has contigs ordered and oriented into chromosomes but may contain gaps at repetitive regions. A T2T (telomere-to-telomere) assembly is gapless — every chromosome is a single continuous sequence from telomere to telomere, including centromeres. T2T requires ONT ultralong reads in addition to HiFi and Hi-C.

Do I need Hi-C data for my de novo genome?

For publication-quality reference genomes, yes. Hi-C provides the long-range linkage information needed to order and orient contigs into complete chromosomes. Without Hi-C, a HiFi assembly may produce 500-2,000 contigs; with Hi-C scaffolding, >90% of the assembly is typically anchored into chromosome-scale scaffolds.

What DNA input is required for plant and animal de novo sequencing?

For PacBio HiFi: ≥5 µg of HMW DNA, fragments ≥30 kb. For ONT ultralong: ≥10 µg DNA, N50 ≥50 kb (ideally ≥100 kb). For Hi-C: ≥1-2 µg of crosslinked DNA. DNA should be from a single individual for de novo assembly; pooled samples introduce artificial heterozygosity.

How long does a de novo genome project take from sample to completed assembly?

A typical project timeline is 4-6 months: sample prep (1-2 weeks), genome survey (2-3 weeks), sequencing (6-12 weeks), assembly and scaffolding (3-4 weeks), annotation (4 weeks), and curation/submission (4 weeks).

What bioinformatic deliverables are included in a CD Genomics de novo sequencing project?

Standard deliverables: raw sequencing data (FASTQ), QC report, assembled genome (FASTA), BUSCO/QV/k-mer QC metrics, repeat annotation (GFF), gene prediction (GFF3), and functional annotation (GO, KEGG, InterProScan, Swiss-Prot, NR). Publication-ready files formatted for NCBI/ENA/DDBJ submission are included.

Séquençage de génomes de plantes et d'animaux de novo : stratégies pour les espèces non-modèles avec intégration de lectures longues et courtes.

Le défi Non-Modèle — Pourquoi l'assemblage De Novo est difficile

Les organismes modèles — humain, souris, Arabidopsis, Drosophile, poisson zèbre — bénéficient de décennies de génomes de référence soigneusement élaborés, d'annotations génétiques et d'infrastructures communautaires. Toutes les autres espèces sont considérées comme "non-modèles", et l'assemblage de leurs génomes présente un ensemble de défis distincts que les pipelines des organismes modèles n'ont jamais été conçus pour gérer.

Pas de référence, pas d'échafaudage

Sans un génome de référence, il n'y a pas de modèle pour aligner les lectures. L'assembleur doit reconstruire le génome uniquement à partir des chevauchements de lectures — un problème graphique intensif en calcul où les séquences répétitives créent des ambiguïtés. Un élément Alu de 300 pb est résolu de manière triviale par une lecture HiFi de 15 kb ; un rétrotransposon LTR de 5 kb qui se trouve en 10 000 copies dans le génome nécessite une combinaison de continuité HiFi et de lectures ultralongues ONT pour être résolu.

Hétérozygotie — Le problème des deux haplotypes

Les organismes non-modèles, en particulier les populations sauvages avec de grandes tailles de population effectives, peuvent présenter une hétérozygotie extrême. Un invertébré marin avec 5 % de sites hétérozygotes produit deux haplotypes distincts qui diffèrent à chaque vingtième base. Un assembleur standard confronté à ces données produit deux résultats, tous deux mauvais : il fusionne les deux haplotypes en un seul "consensus" qui n'est ni l'un ni l'autre, créant un assemblage mosaïque avec des indels artefactuels ; ou il sépare les haplotypes de manière si agressive qu'il double la taille attendue du génome, assemblant chaque haplotype comme un "génome" séparé. La solution est l'assemblage conscient des haplotypes — le mode trio-binning de hifiasm (utilisant des lectures courtes parentales pour partitionner les longues lectures par haplotype) ou le phasage intégré par Hi-C, qui utilise les contacts chromatinens pour déterminer quels variants coexistent sur le même chromosome physique.

Polyploïdie — Plus de deux copies

De nombreuses plantes sont polyploïdes. Le blé tendre (Triticum aestivum) est hexaploïde (2n = 6x = 42), la canne à sucre est octoploïde à décaploïde, et le genre de la fraise Fraisier s'étend des espèces diploïdes aux espèces décaploïdes. Les génomes polyploïdes présentent un cauchemar de comptage de k-mers : au lieu de la structure de pic hétérozygote/homozygote propre que GenomeScope modélise pour les diploïdes, les spectres de k-mers polyploïdes contiennent des pics chevauchants provenant de sous-genomes avec une ascendance partagée (homéologues). GenomeScope 2.0 avec Smudgeplot peut estimer la ploïdie de novo et séparer les contributions des sous-genomes, mais l'assemblage des polyploïdes nécessite toujours des stratégies de phasage des sous-genomes — distinguant quelles copies homéologues appartiennent à quel sous-genome ancestral — qui restent une frontière de recherche active.

Contenu répété et taille du génome

Les génomes des plantes sont riches en répétitions d'une manière que les génomes des animaux ne le sont pas. Le génome du blé tendre de 16 Gb est composé à 85 % d'éléments transposables. Le génome du pin loblolly de 22 Gb contient d'énormes expansions de rétrotransposons LTR. Une étude de référence de 2024 publiée dans Frontiers in Bioinformatics (Obinu et al.) a démontré que même avec des lectures HiFi, la continuité de l'assemblage des génomes végétaux peut varier d'un ordre de grandeur selon le logiciel utilisé — YaHS a atteint un N50 de contig de 32,66 Mb sur des contigs d'Arabidopsis assemblés avec HiFi, tandis que 3D-DNA n'a produit que 3,41 Mb, soulignant que le choix des outils est crucial pour les génomes complexes.

Enquête génomique — Mesurez deux fois, séquencez une fois

Avant de s'engager dans un assemblage de novo complet, l'étape la plus rentable est une enquête génomique — séquençage Illumina peu profond (30-50×) suivi d'une analyse de fréquence des k-mers avec GenomeScope 2.0. Cet investissement de 200 à 500 $ répond à quatre questions qui déterminent chaque décision en aval :

1. Quelle est la taille du génome ? GenomeScope estime la longueur du génome haploïde à partir de la distribution de couverture des k-mers. Cela détermine les exigences en matière de profondeur de séquençage. Un génome de 500 Mb avec une couverture HiFi de 30× nécessite environ 15 Go de données HiFi ; un génome de 5 Go avec la même couverture nécessite 150 Go — une différence de coût de séquençage de 10×.

2. À quel point est-il hétérozygote ? L'hétérozygotie supérieure à 0,5 % indique qu'un assemblage tenant compte des haplotypes est nécessaire. Au-dessus de 2 %, le trio-binning ou les données parentales devraient être fortement envisagés. Au-dessus de 5 %, attendez-vous à investir beaucoup plus dans la profondeur de séquençage et la curation de l'assemblage.

3. À quel point est-ce répétitif ? La proportion de séquence unique estimée par GenomeScope indique quelle fraction du génome est non répétitive. En dessous de 50 % de séquence unique, les lectures ultralongues ONT deviennent essentielles pour couvrir les plus grands répétitions. En dessous de 30 %, envisagez d'ajouter le mapping optique (Bionano) au mélange technologique.

4. Est-ce que c'est polyploïde ? Smudgeplot, un outil compagnon de GenomeScope 2.0, analyse les paires de k-mers hétérozygotes pour estimer la ploïdie de novo. Un diploïde produit deux distributions majeures de paires de k-mers hétérozygotes ; un tétraploïde en produit quatre. Cette information détermine si des stratégies de phasage de sous-génome sont nécessaires.

Le flux de travail pratique : extraire de l'ADN de haut poids moléculaire → séquencer à 30-50× Illumina (NovaSeq, 2×150 pb) → compter les k-mers avec Jellyfish ou KMC (k=21) → télécharger l'histogramme sur genomescope.org → interpréter l'ajustement du modèle. Un ajustement du modèle supérieur à 70 % est acceptable ; en dessous de 50 %, augmenter la profondeur de séquençage ou essayer plusieurs tailles de k-mer (k=17, 21, 27) pour vérifier la cohérence. Le rapport prend 24 à 48 heures à partir de la réception des données et peut économiser des milliers de dollars en évitant des assemblages sous-séquencés qui ne peuvent pas être corrigés en aval.

GenomeScope 2.0 k-mer spectrum plot showing error peak, heterozygous peak, and homozygous peak with estimated genome parameters. Figure 2 : Résultat de l'enquête GenomeScope 2.0 — Un exemple encadré de graphique de spectre de k-mer (k=21) d'un génome diploïde avec ~1 % d'hétérozygotie, annoté pour montrer le pic d'erreur, le pic hétérozygote (1n) et le pic homozygote (2n). Sous le graphique, un tableau récapitulatif des paramètres estimés : Taille du génome, Hétérozygotie, Pourcentage de répétition et Pourcentage d'ajustement du modèle. Une enquête Illumina à 30-50× coûtant entre 200 et 500 dollars guide toutes les décisions de séquençage en aval.

La pile technologique pour l'assemblage de novo

L'assemblage moderne de génomes de novo est une opération multi-plateforme et multi-types de données. Aucune technologie de séquençage unique ne produit un assemblage complet, précis et à l'échelle chromosomique d'un génome eucaryote non modèle. La pile technologique standard, validée par le Projet des Génomes des Vertébrés (VGP) et le Projet Earth BioGenome (EBP), combine quatre types de données :

PacBio HiFi — La colonne vertébrale de la continuité

Les lectures PacBio HiFi (mode CCS, longueur modale de 15 à 25 kb, précision ≥99,9 %) sont la base de l'assemblage de novo moderne. Avec une couverture de 30 à 60×, les lectures HiFi produisent des assemblages de contigs avec des N50 dans la plage des mégabases à des dizaines de mégabases pour des génomes allant jusqu'à plusieurs gigabases. L'assembleur hifiasm (Cheng et al., 2021) est devenu la norme de facto — il intègre nativement les lectures HiFi, les contacts Hi-C et des lectures courtes parentales optionnelles pour le trio-binning dans un seul graphe d'assemblage, produisant des assemblages primaires et alternatifs résolus par haplotype en une seule exécution. Pour les génomes de moins de 3 Gb, les assemblages uniquement HiFi avec une couverture de 40× et un échafaudage Hi-C fournissent régulièrement >95 % de complétude BUSCO et des N50 d'échafaudage à l'échelle des chromosomes.

Oxford Nanopore Ultralong — Le Repeat-Spanner

Les lectures ultralongues ONT (50-300+ kb, chimie R10.4.1, précision modale >99 % avec le basecalling super-précis Dorado) servent un objectif différent : elles couvrent les plus grands éléments répétitifs que même les lectures HiFi ne peuvent pas relier. Les satellites centromériques (ensembles à l'échelle du Mb de répétitions alpha-satellite de 171 pb chez les primates, ou la répétition CentO de 156 pb chez le riz), les ensembles d'ADNr (répétitions 45S présentes dans des centaines à des milliers de copies en tandem) et les duplications segmentaires (>10 kb, >90 % d'identité) dépassent tous le plafond de 25 kb des lectures HiFi mais se situent dans l'étendue d'une seule lecture ultralongue ONT. Dans un flux de travail typique d'assemblage T2T, les lectures ultralongues ONT à une couverture de 15-20× sont co-assemblées avec des lectures HiFi — soit intégrées dans le graphique d'assemblage hifiasm (hifiasm --ul), soit assemblées séparément avec Flye ou NextDenovo puis fusionnées via quickmerge ou RagTag. CD Genomics propose Séquençage ultra-long par nanopore sur la plateforme PromethION avec la chimie R10.4.1 et le basecalling super-précis Dorado, fournissant régulièrement des N50 de lecture supérieurs à 100 kb pour la fermeture des lacunes et la finition T2T.

Hi-C — Des contigs aux chromosomes

Hi-C (capture de conformation de la chromatine) fournit des informations de liaison à longue distance qui comblent les lacunes à l'échelle des mégabases entre les contigs. Dans le protocole Hi-C, la chromatine est réticulée avec du formaldéhyde, digérée avec une enzyme de restriction et religaturée de manière à ce que les fragments d'ADN qui étaient physiquement proches dans le noyau soient ligaturés ensemble. Le séquençage de ces molécules chimériques révèle quels contigs appartiennent au même chromosome et, de manière critique, leur ordre et leur orientation. Le scaffolder recommandé actuellement est YaHS (Zhou et al., 2023), qui a été évalué comme le meilleur performer pour les génomes de plantes dans une étude de 2024 (Obinu et al., Frontiers in Bioinformatics), atteignant un N50 de scaffold de 32,66 Mb contre 3,41 Mb pour 3D-DNA sur la même entrée d'assemblage HiFi. Un minimum de 100× de couverture Hi-C est recommandé ; pour les grands génomes (>3 Gb), 150× fournit des contacts à longue distance plus robustes. CD Genomics propose des services dédiés. Séquençage Hi-C avec les enzymes de restriction DpnII et MboI, intégrées dans le pipeline de scaffolding YaHS pour fournir des assemblages à l'échelle chromosomique à partir d'entrées de contigs HiFi.

Illumina Courtes Lectures — Le Polish de Précision

Même les lectures HiFi présentent des erreurs systématiques lors des courses de homopolymères et dans des contextes extrêmes de GC. Les courtes lectures Illumina (2×150 pb, 30-50× de couverture) offrent une correction d'erreur orthogonale — le profil d'erreur Illumina est dominé par les substitutions et indépendant du profil d'erreur dominé par les indels de PacBio/ONT. Des outils comme Pilon, NextPolish et POLCA utilisent les alignements de lectures Illumina pour corriger les erreurs résiduelles de bases dans l'assemblage de longues lectures, améliorant la précision du consensus de ~Q40 (une erreur par 10 000 pb) à ~Q50-60 (une erreur par 100 000 à 1 000 000 pb). Pour les génomes de référence de qualité publication, le polissage Illumina est standard.

Un résultat représentatif du Projet des Génomes des Vertébrés illustre ce que cette pile technologique offre en pratique. Le bandicoot à barres orientales (Perameles gunnii), un marsupial en danger d'extinction avec un génome d'environ 3,6 Gb, a été assemblé à l'échelle chromosomique en utilisant 46× PacBio HiFi, 20× ONT ultralong et 110× données Hi-C. L'assemblage résultant a ancré 97,8 % du génome dans 14 pseudochromosomes correspondant au caryotype connu, atteignant un N50 de scaffold de 155 Mb et une complétude BUSCO de 95,7 % (mammalia_odb10). Le coût total du séquençage était d'environ 12 000 $ — un génome de référence complet pour une espèce prioritaire en matière de conservation à peu près au coût d'un seul génome humain Illumina d'il y a une décennie.

Mettre en place — Une recette pour une assemblée représentative

Pour un génome d'animal diploïde non-modèle d'environ 1,5 Gb avec une hétérozygotie modérée (~1 %) :

Type de données	Plateforme	Couverture	Objectif	Coût approximatif
Enquête génomique	Illumina NovaSeq 2×150	30-50×	analyse des k-mers, estimation de la taille du génome/de l'hétérozygotie/des répétitions	200-500 $
Assemblage HiFi	PacBio Revio	40×	Assemblage de contigs, phasage des haplotypes	4 000-6 000 $
Ultralong	ONT PromethION R10.4.1	15×	Répétition de la portée, fermeture des lacunes	2 000-4 000 $
Hi-C	Illumina NovaSeq	100×	Échafaudage à l'échelle des chromosomes	1 500 - 2 500 $
Illumina Polonais	Illumina NovaSeq 2×150	30×	Correction d'erreurs de base	300-500 $
Total				8 000 $ - 13 500 $

Pour un génome de plante de taille similaire mais avec polyploïdie ou >70 % de contenu répétitif, augmentez la couverture HiFi à 60× et ONT à 20×, et ajoutez le cartographie optique Bionano pour une vérification indépendante des échafaudages — coût total d'environ 15 000 à 25 000 $.

CD Genomics propose des forfaits de séquençage de novo intégrés qui combinent ces types de données en un seul flux de travail de projet. Pour les projets les plus exigeants — où un génome de référence complet et sans lacunes est l'objectif explicite — le service d'assemblage de génome T2T fournit des assemblages complets de télomère à télomère avec des centromères résolus, validés par l'identification des répétitions de télomères aux extrémités des chromosomes et une complétude BUSCO >98%. Pour des conseils sur le choix de la stratégie d'assemblage optimale pour votre génome spécifique — y compris les compromis de mélange technologique, les approches tenant compte de la ploïdie et l'optimisation du budget — consultez notre Stratégie d'assemblage du génome page de consultation.

De Novo Genome Assembly Technology Stack: layered diagram showing PacBio HiFi, ONT Ultralong, Hi-C, and Illumina with their roles in assembly. Figure 1 : Technologie d'assemblage de génome De Novo — Un diagramme en couches montrant les quatre types de données et leurs rôles. Couche supérieure : PacBio HiFi (30-60×, lectures de 15-25 kb) étiquetée "Contig Backbone." Deuxième couche : ONT Ultralong (15-20×, lectures de 50-300+ kb) étiquetée "Repeat Spanner." Troisième couche : Hi-C (100×) étiquetée "Chromosome Scaffolder." Couche inférieure : Illumina (30×, 2×150 bp) étiquetée "Accuracy Polish." Côté droit : visualisation de l'assemblage final montrant les contigs → chromosome échafaudé → chromosome T2T sans lacunes.

Annotation du génome — Rendre l'assemblage interprétable

Un génome assemblé sans annotation est une carte sans étiquettes. Le pipeline d'annotation transforme un fichier FASTA de contigs en un catalogue de gènes annotés fonctionnellement, adapté à la génomique comparative, à la génétique des populations et aux études fonctionnelles. Pour les eucaryotes non modèles, le pipeline d'annotation comporte trois phases.

Phase 1 : Masquage répétitif

Avant la prédiction des gènes, les éléments répétitifs doivent être identifiés et masqués de manière douce (convertis en minuscules afin qu'ils soient ignorés par les prédicteurs de gènes sans être supprimés). Le flux de travail standard construit une bibliothèque de répétitions de novo avec RepeatModeler2, qui identifie les séquences répétitives ab initio en détectant les séquences présentes en plusieurs copies dans l'assemblage, puis les classe par rapport à RepBase (si les répétitions de l'organisme sont représentées) ou Dfam. La bibliothèque de novo est ensuite utilisée par RepeatMasker pour annoter et masquer de manière douce les répétitions à l'échelle du génome. Pour les grands génomes de plantes, EDTA (Extensive de-novo TE Annotator ; Ou et al., 2019) offre une alternative plus rapide et plus complète qui traite spécifiquement les rétrotransposons LTR — la classe de répétitions dominante dans la plupart des génomes de plantes.

Phase 2 : Prédiction génique

La prédiction des gènes eucaryotes bénéficie de l'intégration de plusieurs lignes de preuve. BRAKER3 (Gabriel et al., 2021) est l'état de l'art actuel : il exécute GeneMark-ETP pour la prédiction de gènes non supervisée à partir de la séquence génomique seule, AUGUSTUS pour la prédiction guidée par homologie en utilisant des preuves protéiques provenant d'espèces apparentées (généralement l'ensemble de protéines OrthoDB pour le clade taxonomique pertinent), et des alignements de lectures RNA-seq (si disponibles) pour définir les frontières exon-intron avec une résolution nucléotidique. TSEBRA combine ensuite les prédictions de GeneMark-ETP et d'AUGUSTUS en un ensemble de gènes consensuel pondéré. Pour les organismes disposant de données RNA-seq provenant de plusieurs tissus, le mode RNA-seq de BRAKER3 améliore considérablement la précision des modèles de gènes, en particulier pour les frontières UTR et les isoformes d'épissage alternatif. CD Genomics' RNA-Seq le service fournit les preuves de transcriptes spécifiques aux tissus — provenant de bibliothèques d'ARNm sélectionnées par poly(A) séquencées sur la plateforme Illumina NovaSeq — que BRAKER3 utilise pour définir les frontières exon-intron avec une résolution au niveau des nucléotides. Pour les organismes non-modèles où les isoformes de transcriptes en longueur complète fournissent les preuves les plus solides pour la structure des gènes, CD Genomics' Séquençage de Transcriptions Complètes (Iso-Seq) sur la plateforme PacBio, capture des isoformes de transcrits complets sans l'ambiguïté d'assemblage des transcriptomes à lecture courte. Pour les organismes non-modèles profondément éloignés où aucune RNA-seq n'existe, GALBA (Bruna et al., 2021) utilise des preuves protéiques provenant d'espèces évolutivement distantes pour guider la prédiction génique à travers un pipeline d'alignement protéine-génome basé sur les miniprot — échangeant la précision spécifique à une espèce contre une large applicabilité phylogénétique.

Phase 3 : Annotation fonctionnelle

Les gènes codant des protéines prédits sont annotés fonctionnellement par similarité de séquence contre des bases de données soigneusement sélectionnées : NR (base de données de protéines non redondantes), Swiss-Prot (manuellement annotée), InterProScan (domaines et familles de protéines via Pfam, SMART, PROSITE, etc.), GO (Ontologie des gènes), KEGG (voies métaboliques) et EggNOG (groupes orthologues). C'est un processus intensif en calcul mais bien standardisé ; sur un protéome de 30 000 gènes, InterProScan à lui seul peut fonctionner pendant 12 à 24 heures sur un serveur à 64 cœurs. Séquençage de novo du génome entier des plantes et des animaux CD Genomics fournit une annotation fonctionnelle comme composant standard de chaque projet de novo, avec des résultats organisés au format GFF3 pour les navigateurs de génomes et des tableaux délimités par des tabulations pour l'analyse en aval.

De l'assemblage à la publication — QC, soumission et normes

Un assemblage génomique de novo est un produit scientifique qui doit répondre à des normes de qualité acceptées par la communauté avant publication et soumission à des bases de données publiques. Les principaux indicateurs de contrôle de qualité sont :

BUSCO complétude: Évaluation des orthologues universels à copie unique — le pourcentage de gènes conservés d'un ensemble de gènes spécifique à une lignée (par exemple, vertebrata_odb10, embryophyta_odb10) récupérés en tant que complets et à copie unique. >95 % est de qualité publication ; >98 % est de qualité référence.

Contiguïté (N50)La médiane pondérée par la longueur — 50 % de l'assemblage se trouve dans des contigs/scaffolds de cette taille ou plus grande. Pour les assemblages à l'échelle des chromosomes, le N50 des scaffolds devrait approcher la taille d'un chromosome typique pour l'espèce.

QV (valeur de qualité de consensus)Estimé par Merqury, qui compare les fréquences de k-mers entre l'assemblage et les lectures brutes Illumina. Un QV >40 (une erreur par 10 kb) est standard ; un QV >50 est de qualité publication.

complétude des k-mersLa fraction de k-mers provenant des lectures Illumina présentes dans l'assemblage doit dépasser 95 % pour un assemblage complet.

Alignement d'assemblage à référenceSi le génome d'une espèce apparentée existe, un alignement de génome complet (MUMmer, minimap2 ou MashMap) vérifie la syntenie à grande échelle et identifie d'éventuelles erreurs d'assemblage.

Le Projet BioGénome de la Terre (EBP) recommande les normes minimales suivantes pour l'assemblage des génomes eucaryotes : N50 des contigs ≥ 1 Mb, N50 des échafaudages ≥ 10 Mb (ancrage à l'échelle des chromosomes), complétude BUSCO ≥ 90 %, et QV de consensus ≥ 30. Les génomes de qualité référence acceptés par NCBI RefSeq doivent respecter des critères plus stricts : N50 des contigs ≥ 10 Mb (ou à l'échelle des bras de chromosomes), BUSCO ≥ 95 %, QV ≥ 40, et <5 % de contamination. Au niveau supérieur, les assemblages T2T — tels que le génome sans lacunes de 2024. Gossypium hirsutum Le génome ZM113 (26 chromosomes, 0 lacunes, contig N50 89,27 Mb, BUSCO 99,6 %, QV 42,9) représente la norme actuelle en matière de génomes eucaryotes complets, chaque chromosome étant résolu en une seule séquence continue d'un télomère à l'autre.

La soumission aux bases de données publiques est la dernière étape. NCBI GenBank exige que les assemblages passent le Foreign Contamination Screen (FCS) — qui détecte la contamination par des adaptateurs, des vecteurs et des espèces croisées — avant que des numéros d'accès ne soient attribués. L'European Nucleotide Archive (ENA) et la DNA Data Bank of Japan (DDBJ) ont des pipelines de validation similaires. À la fin de chaque projet, CD Genomics fournit des fichiers prêts à être soumis via son Séquençage du génome entier service — y compris l'assemblage masqué FASTA, l'annotation des gènes GFF3 et les tableaux d'annotation fonctionnelle — formaté pour répondre aux exigences de l'NCBI/ENA/DDBJ avec des résultats de dépistage FCS pré-validés.

De Novo Genome Assembly Pipeline: 7-stage vertical workflow from sample collection to NCBI submission with timeline, tools, and deliverables. Figure 3 : Pipeline d'assemblage de génome De Novo — Un flux de travail vertical en 7 étapes, de la collecte d'échantillons à la soumission dans une base de données publique. Étapes : (1) Collecte d'échantillons et extraction d'ADN (Semaine 1-2) → (2) Enquête génomique — Analyse k-mer GenomeScope 2.0 (Semaine 2-3) → (3) Séquençage HiFi + ONT Ultralong (Semaine 3-12) → (4) Préparation et séquençage de la bibliothèque Hi-C (Semaine 8-13) → (5) Assemblage et scaffolding — hifiasm + YaHS (Semaine 13-16) → (6) Annotation du génome — RepeatModeler2/EDTA + BRAKER3 + InterProScan (Semaine 16-20) → (7) QC et soumission NCBI/ENA/DDBJ — BUSCO, Merqury, FCS (Semaine 20-24). Chaque étape annotée avec des outils clés, une durée estimée et des livrables principaux.

Considérations pratiques pour les projets de novo

ADN — Tout commence ici

La qualité de l'assemblage de novo est limitée par la qualité de l'ADN. Pour PacBio HiFi, il faut ≥5-15 µg d'ADN HMW avec des fragments ≥30 kb ; le Femto Pulse ou le PFGE est utilisé pour vérifier la distribution de la taille des fragments avant la préparation de la bibliothèque. Pour le séquençage ultralong ONT, il faut ≥10 µg d'ADN avec un N50 ≥50 kb — idéalement ≥100 kb — ; le kit Circulomics Nanobind ou un protocole modifié de phénol-chloroforme est recommandé pour l'extraction. Il est fortement recommandé d'utiliser l'ADN d'un seul individu pour l'assemblage de novo ; le regroupement de plusieurs individus introduit une hétérozygotie artificielle qui dégrade la continuité de l'assemblage et la résolution des haplotypes.

Pour les organismes où la quantité de tissu est limitée — petits invertébrés, embryons, spécimens d'herbier, échantillons de musée — Séquençage du génome complet Les flux de travail à faible apport chez CD Genomics peuvent générer des bibliothèques HiFi à partir de seulement 500 ng d'ADN, bien que la continuité de l'assemblage soit réduite par rapport aux protocoles à haut apport.

Chronologie de planification de projet

Un projet de génome de novo typique pour un organisme non modèle de 1 à 2 Gb suit cette chronologie :

Semaine 1-2: Collecte d'échantillons, extraction d'ADN, contrôle de qualité, séquençage de sondage du génome

Semaine 2-3Analyse k-mer de GenomeScope, finaliser la stratégie de séquençage.

Semaine 3-8Préparation de bibliothèque et séquençage PacBio HiFi (30-60×)

Semaine 3-12Préparation et séquençage de bibliothèque ultralong ONT (15-20×)

Semaine 8-13Préparation de bibliothèque Hi-C et séquençage (100×)

Semaine 13-16: Assemblage (hifiasm), échafaudage (YaHS), polissage (NextPolish), contrôle qualité (BUSCO, Merqury)

Semaine 16-20: Annotation (RepeatMasker → BRAKER3 → InterProScan)

Semaine 20-24: Curation manuelle, génération de figures, soumission NCBI

Total : 4 à 6 mois depuis l'échantillon jusqu'au génome de référence soumis à NCBI.

Pour un aperçu plus large de la manière dont le séquençage de novo des plantes et des animaux s'intègre dans le paysage plus vaste du séquençage génomique complet (WGS) — des génomes bactériens au séquençage de re-génération à grande échelle des populations — consultez notre Centre de services de séquençage du génome entierPour l'assemblage de novo à l'échelle bactérienne, qui suit un flux de travail distinct adapté aux génomes prokaryotes de petite taille (3-7 Mb), voir notre Guide de séquençage du génome entier bactérienPour les projets nécessitant exclusivement des approches à longues lectures, les services de séquençage à longues lectures de CD Genomics offrent des plateformes PacBio et ONT pour des applications ciblées. Pour un guide complet sur le séquençage à longues lectures dans toutes les applications — de la détection de variantes structurelles au séquençage de transcrits complets et à l'épigénétique — consultez notre Services de séquençage à lecture longue pour chaque application.

Questions Fréquemment Posées

Qu'est-ce que l'assemblage de génome de novo et quand est-il nécessaire ?

L'assemblage de génome de novo reconstruit une séquence génomique complète à partir de lectures de séquençage qui se chevauchent, sans modèle de référence. Cela est nécessaire lorsqu'aucun génome de référence de haute qualité n'existe pour l'espèce, ce qui est le cas pour la grande majorité des plantes et des animaux sur Terre. Si un génome de référence étroitement apparenté est disponible, l'assemblage guidé par référence ou le re-séquençage peuvent être plus rapides et moins coûteux.

Quel est le coût du séquençage de génome de novo pour un génome de plante ou d'animal ?

Les coûts varient en fonction de la taille et de la complexité du génome. Un génome diploïde de 500 Mb à l'échelle des chromosomes coûte environ 5 000 à 10 000 $. Un génome de 1 à 2 Gb de qualité T2T coûte entre 10 000 et 20 000 $. Les grands génomes de plantes polyploïdes (5 à 16 Gb) peuvent coûter entre 20 000 et 35 000 $. Ces estimations incluent le séquençage, l'assemblage, l'échafaudage et l'annotation de base.

Pourquoi un sondage génomique est-il recommandé avant un séquençage de novo complet ?

Une enquête génomique de 200 à 500 $ (analyse Illumina peu profonde + analyse k-mer GenomeScope) estime la taille du génome, l'hétérozygotie, le contenu en répétitions et la ploïdie. Ces informations déterminent la quantité de séquençage nécessaire, quelles plateformes sont optimales et si des stratégies de phasage spécialisées ou d'assemblage conscientes de la polyploïdie sont requises, évitant ainsi un sous- ou un sur-séquençage coûteux.

Quelle est la différence entre un assemblage à l'échelle des chromosomes et un assemblage T2T ?

Une assemblage à l'échelle des chromosomes a des contigs ordonnés et orientés en chromosomes mais peut contenir des lacunes dans les régions répétitives (centromères, ensembles d'ADNr). Une assemblage T2T (télomère à télomère) est sans lacunes — chaque chromosome est une séquence continue unique du télomère au télomère, y compris des régions auparavant difficiles à traiter comme les centromères. T2T nécessite des lectures ultralongues ONT en plus des lectures HiFi et Hi-C.

Ai-je besoin de données Hi-C pour mon génome de novo ?

Pour des génomes de référence de qualité publication, oui. Hi-C fournit les informations de liaison à longue portée nécessaires pour ordonner et orienter les contigs en chromosomes complets. Sans Hi-C, un assemblage HiFi d'un génome de 1 Gb peut produire entre 500 et 2 000 contigs ; avec l'échafaudage Hi-C, plus de 90 % de l'assemblage est généralement ancré dans des échafaudages à l'échelle des chromosomes correspondant au caryotype attendu.

Quel ADN est nécessaire pour le séquençage de novo des plantes et des animaux ?

Pour PacBio HiFi : ≥5 µg d'ADN HMW, fragments ≥30 kb. Pour ONT ultralong : ≥10 µg d'ADN, N50 ≥50 kb (idéalement ≥100 kb). Pour Hi-C : ≥1-2 µg d'ADN réticulé. L'ADN doit provenir d'un seul individu pour un assemblage de novo ; les échantillons en pool introduisent une hétérozygotie artificielle.

Combien de temps prend un projet de génome de novo, de l'échantillon à l'assemblage complet ?

Un calendrier de projet typique est de 4 à 6 mois : préparation des échantillons (1 à 2 semaines), enquête génomique (2 à 3 semaines), séquençage (6 à 12 semaines selon les types de données), assemblage et scaffolding (3 à 4 semaines), annotation (4 semaines) et curation/soumission (4 semaines). Des délais accélérés sont disponibles pour des types de données individuels.

Quels livrables bioinformatiques sont inclus dans un projet de séquençage de novo de CD Genomics ?

Livrables standards : données de séquençage brutes (FASTQ), rapport de contrôle qualité, génome assemblé (FASTA), métriques de contrôle qualité BUSCO/QV/k-mer, annotation des répétitions (GFF), prédiction des gènes (GFF3) et annotation fonctionnelle (GO, KEGG, InterProScan, Swiss-Prot, NR). Des fichiers prêts pour publication, formatés pour la soumission à NCBI/ENA/DDBJ, sont inclus.

Références :

Cheng H, Concepcion GT, Feng X, Zhang H, Li H. Assemblage de novo résolu par haplotype utilisant des graphes d'assemblage phasés avec hifiasm. Méthodes de la nature. 2021;18(2):170-175. doi:10.1038/s41592-020-01056-5
Obinu L, Dettori G, Lemay MA, et al. Évaluation des outils Hi-C pour l'assemblage des génomes végétaux obtenus à partir de lectures PacBio HiFi et ONT. Frontières en bioinformatique. 2024;4:1462923. doi:10.3389/fbinf.2024.1462923
Ranallo-Benavidez TR, Jaron KS, Schatz MC. GenomeScope 2.0 et Smudgeplot pour le profilage sans référence des génomes polyploïdes. Nature Communications. 2020;11(1):1432. doi:10.1038/s41467-020-14998-3
Gabriel L, Hoff KJ, Bruna T, et al. TSEBRA : sélecteur de transcrits pour BRAKER. BMC Bioinformatique2021;22(1):566. doi:10.1186/s12859-021-04482-0
Rhie A, Walenz BP, Koren S, Phillippy AM. Merqury : évaluation de la qualité, de la complétude et du phasage sans référence pour les assemblages génomiques. Biologie du génome2020 ; 21(1) : 245. doi:10.1186/s13059-020-02134-9
Zhou C, McCarthy SA, Durbin R. YaHS : encore un autre outil de scaffolding Hi-C. Bioinformatique2023 ; 39(1) : btac808. doi:10.1093/bioinformatics/btac808
Manni M, Berkeley MR, Seppey M, Simao FA, Zdobnov EM. Mise à jour de BUSCO : nouveaux flux de travail simplifiés avec une couverture phylogénétique plus large et plus profonde pour l'évaluation des génomes eucaryotes, procaryotes et viraux. Biologie moléculaire et évolution2021 ; 38(10) : 4647-4654. doi:10.1093/molbev/msab199
Ou S, Su W, Liao Y, et al. Évaluation des méthodes d'annotation des éléments transposables pour la création d'un pipeline rationalisé et complet. Biologie du génome2019 ; 20(1) : 275. doi:10.1186/s13059-019-1905-y

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.