Illumina NGS : Principes, plateformes et meilleures pratiques pour des projets de séquençage réussis

La technologie de séquençage par synthèse (SBS) d'Illumina a dominé le paysage du séquençage à court terme pendant plus d'une décennie, alimentant la majorité des études génomiques publiées chaque année. La combinaison de haute précision, de débit évolutif et d'écosystème mature de la plateforme en fait le choix par défaut pour la plupart des applications de séquençage de nouvelle génération (NGS), allant des panneaux d'amplicons ciblés et du séquençage de l'exome entier aux études de génome entier à l'échelle de la population.

Cependant, mener à bien un projet de séquençage Illumina réussi nécessite plus que de connaître le flux de travail de base. Choisir la bonne plateforme, préparer des bibliothèques de haute qualité, interpréter les métriques de qualité et éviter les échecs courants du flux de travail sont tous essentiels pour obtenir des résultats reproductibles et prêts pour publication. Une seule bibliothèque mal préparée peut compromettre un cycle de séquençage entier — et avec les cellules de flux NovaSeq X coûtant des dizaines de milliers de dollars par cycle, l'impact financier d'un échec est considérable.

Cet article fournit un guide pratique sur le séquençage de nouvelle génération (NGS) avec Illumina, couvrant la sélection de la plateforme, les meilleures pratiques de préparation de bibliothèques, l'interprétation de la qualité de séquençage et les flux de travail d'analyse des données. Il est conçu pour les chercheurs qui comprennent déjà les principes de base et ont besoin de conseils pratiques pour la planification et l'exécution expérimentales. L'accent est mis tout au long sur un contenu pratique et orienté vers la décision : quelle plateforme choisir, comment éviter les échecs les plus courants dans la préparation des bibliothèques, comment lire un rapport de contrôle de qualité de séquençage et comment planifier un projet du début à la fin.

Pourquoi Illumina NGS domine le paysage du séquençage à lecture courte

La technologie de séquençage par synthèse (SBS) d'Illumina est restée la plateforme de lecture courte dominante grâce à une innovation continue. La chimie a évolué du SBS standard au plus récent XLEAP-SBS, introduit avec la série NovaSeq X, qui offre des temps de course plus rapides, une intensité de signal plus élevée et une consommation de réactifs réduite. Ces améliorations ont considérablement réduit le coût par génome au cours de la dernière décennie, rendant les projets de séquençage à l'échelle de la population économiquement viables.

La famille de plateformes Illumina couvre une plage de débit allant jusqu'à 10 000 fois, englobant pratiquement tous les types de projets de séquençage :

PlateformeSortie maximaleLongueur maximale de lectureDurée d'exécution typiqueApplications idéales
iSeq 1001,2 Go2 × 150 pb9–17,5 hPetits panneaux, exécutions de validation
MiniSeq7,5 Go2 × 150 pb7–24 hSéquençage ciblé de petite taille
MiSeq15 Go2 × 300 pb4–55 hAmplicons 16S/ITS, petits génomes, panneaux d'amplicons
NextSeq 2000330 Go2 × 150 pb11–48 hRNA-seq, exomes, WGS moyen
NovaSeq 60006 To2 × 250 pb13–44 hWGS à grande échelle, études de population
NovaSeq X / X Plus16 To2 × 150 pb12–48 heuresWGS ultra-large, >30× génomes humains à grande échelle

Pour les chercheurs planifiant leur premier projet Illumina ou cherchant à améliorer leur plateforme, comprendre où chaque système s'intègre est la première décision critique. Complet services de séquençage de nouvelle génération couvrir l'ensemble des plateformes Illumina, permettant de sélectionner le bon instrument en fonction des exigences spécifiques de débit et de longueur de lecture de chaque projet.

Figure 1 : Matrice de la plateforme Illumina — débit par rapport à la longueur de lecture pour MiSeq, NextSeq, NovaSeq 6000 et NovaSeq X

Les Trois Étapes Clés — Un Aperçu Rapide

Chaque projet de séquençage Illumina suit le même flux de travail en trois étapes :

  1. Préparation de la bibliothèqueL'ADN ou l'ARN est fragmenté, réparé aux extrémités, doté d'une queue A et ligaturé à des adaptateurs de séquençage. La bibliothèque résultante est amplifiée, quantifiée et contrôlée pour sa qualité avant le chargement.
  2. Génération et séquençage de clustersLes bibliothèques sont chargées sur une cellule de flux où elles subissent une amplification en pont pour former des clusters clonaux. Le séquençage par synthèse se déroule en cycles, chaque cycle incorporant un nucléotide étiqueté par fluorescence et à terminaison réversible. L'instrument capture des images après chaque cycle, et le logiciel d'appel de bases convertit les signaux de fluorescence en lectures de séquence.
  3. Analyse de donnéesLes fichiers BCL bruts sont convertis au format FASTQ (analyse primaire), les lectures sont alignées à un génome de référence (analyse secondaire), et l'interprétation biologique suit (analyse tertiaire).

Figure 2 : Flux de travail en trois étapes du NGS — préparation de la bibliothèque, génération de clusters et séquençage

Sélectionner la bonne plateforme Illumina — Débit, longueur de lecture et adéquation à l'application

Choisir la mauvaise plateforme est l'une des erreurs les plus courantes et coûteuses dans la planification de projets NGS. Le bon choix dépend de l'interaction entre trois paramètres : la quantité totale de séquençage nécessaire, la longueur de lecture requise et le budget.

Sélection de plateforme basée sur les applicationsUn groupe de recherche typique peut mener des projets à différentes échelles. Comprendre comment chaque plateforme correspond aux types d'études courants garantit une utilisation efficace des ressources.

  • Séquençage d'amplicons 16S/ITS: Nécessite 2 × 250 pb ou 2 × 300 pb de lectures pour couvrir les régions variables de pleine longueur. MiSeq c'est la plateforme standard, traitant de 96 à 384 échantillons par course à faible coût par échantillon.
  • Séquençage de l'exome entier (WES): Nécessite environ 10 Go par échantillon. Pour 96 échantillons, une cellule de flux NovaSeq 6000 S4 gère l'ensemble du lot en une seule course. Pour des lots plus petits de 12 à 24 échantillons, le NextSeq 2000 est plus pratique et évite de payer pour une capacité de cellule de flux inutilisée.
  • Séquençage du génome entier (SGE)Nécessite 30 à 60 Go par échantillon pour une couverture de 30×. Les plateformes appropriées sont le NovaSeq 6000 ou le NovaSeq X. Le NovaSeq X avec la chimie XLEAP-SBS a considérablement réduit le coût de séquençage par génome, rendant les études de WGS ultra-grandes plus accessibles.
  • RNA-seq (ARNm)Nécessite 20 à 50 millions de lectures par échantillon pour l'expression génique standard ; plus de 100 millions pour l'analyse au niveau des isoformes. Le NextSeq 2000 convient bien aux projets standards, tandis que les plateformes de la classe NovaSeq soutiennent les projets de RNA-seq à cellule unique nécessitant entre 500 millions et 3 milliards de lectures par course.
  • Panneaux ciblés (petits): 10 à 100 gènes avec 1 à 5 millions de lectures par échantillon. MiniSeq ou MiSeq sont rentables, offrant un délai d'exécution rapide. Pour les panneaux dépassant 500 amplicons, NextSeq peut être nécessaire pour garantir une profondeur de lecture suffisante par amplicon.

Cadre décisionnel pratiqueCommencez par calculer le nombre total de lectures nécessaires (lectures par échantillon × nombre d'échantillons). Ensuite, vérifiez la longueur minimale des lectures. Enfin, choisissez la plateforme qui offre ce débit dans le temps le plus court et au coût par échantillon le plus bas. Services de séquençage NGS L'équipe peut vous aider à faire correspondre les paramètres de votre projet à la configuration optimale de la plateforme.

Figure 3 : Arbre de décision pour la sélection de la plateforme — des paramètres du projet au système Illumina recommandé

Préparation de la bibliothèque — L'étape où la plupart des projets réussissent ou échouent

La préparation de la bibliothèque est l'étape la plus variable du flux de travail NGS et la source la plus courante d'échec de projet. Un protocole de préparation de bibliothèque bien conçu avec des points de contrôle de QC rigoureux est essentiel pour des résultats cohérents.

Cinq points de contrôle QC critiques:

  1. Qualité de l'acide nucléique d'entréeL'ADN devrait avoir un OD260/280 de 1,8 à 2,0 et un OD260/230 > 1,5. L'ARN devrait avoir un RIN ≥ 7 pour le mRNA-seq et un RIN ≥ 5 pour le total RNA-seq. Un échantillon dégradé est la cause la plus courante d'échec de la bibliothèque et ne peut pas être compensé en augmentant la quantité d'échantillon.
  2. Cohérence de fragmentationLa fragmentation enzymatique est plus reproductible que le cisaillement mécanique pour la plupart des applications. La distribution de taille des fragments cibles doit correspondre à la longueur de lecture du séquençage—pour 2 × 150 pb, la taille de l'insertion doit se situer autour de 300–500 pb.
  3. Efficacité de la ligation des adaptateursUne ligation inefficace produit des bibliothèques avec un contenu élevé en dimères d'adaptateurs. Un tracé de Bioanalyzer montrant un pic proéminent à 80–120 pb sans insert correspondant indique des dimères d'adaptateurs, qui gaspillent la capacité de séquençage et réduisent la qualité des données.
  4. biais d'amplification PCRLimitez les cycles de PCR à 6–10 pour les bibliothèques d'ADN et à 12–15 pour les bibliothèques d'ARN. Une amplification excessive augmente les taux de duplication sans améliorer la complexité de la bibliothèque. Pour les échantillons à faible entrée, envisagez des méthodes de préparation de bibliothèque sans PCR.
  5. Quantification finale de la bibliothèqueLa quantification basée sur la qPCR est plus précise que Qubit ou Bioanalyzer pour déterminer la concentration de chargement. Un écart de 2 à 3 fois entre les méthodes est courant, et s'appuyer sur la mauvaise mesure est une cause principale de la faible densité de clusters.

Échecs courants des bibliothèques et leurs solutions:

  • Densité de cluster faibleLa concentration de la bibliothèque a été sous-estimée. Validez la quantification par qPCR. Pour les cellules de flux à motifs (NovaSeq), la plage de concentration de chargement optimale est étroite : une déviation de 10 à 20 % peut produire de mauvais résultats.
  • Sur-clusteringLa concentration de la bibliothèque a été surestimée. Re-quantifiez et regroupez à une concentration plus faible. Un sur-clustering produit des clusters qui se chevauchent et ne peuvent pas être résolus, réduisant le nombre de lectures utilisables.
  • Contamination par dimères d'adaptateurs dans les lecturesLe nettoyage post-ligation était insuffisant. Augmentez le ratio de billes SPRI ou ajoutez une étape de sélection de taille basée sur un gel. Pour les cas difficiles, utilisez un nettoyage SPRI double face. Un tracé Bioanalyzer avec un pic dominant en dessous de la plage de taille de bibliothèque attendue confirme la contamination par des dimères d'adaptateurs.
  • Taux de duplication élevé (>30%): ADN d'entrée insuffisant ou trop de cycles PCR. Augmentez le matériel d'entrée si disponible ; réduisez le nombre de cycles PCR ; ou passez à un protocole de bibliothèque sans PCR pour les applications de séquençage génomique.
  • Saut d'indexSur les cellules de flux à motifs, des index libres résiduels peuvent mal annoter les clusters voisins. Utilisez des index doubles uniques (UDI) au lieu d'index simples pour éliminer le problème du saut d'index. Pour les projets multiplexés de grande envergure avec de nombreux échantillons, l'UDI est fortement recommandé par rapport aux stratégies à index simple.

Stratégie de multiplexage et allocation de codes-barresUne décision clé dans la préparation des bibliothèques est le nombre d'échantillons à multiplexage par course de séquençage. Le nombre d'échantillons par course est déterminé par le nombre de lectures requises par échantillon et la sortie totale de la cellule de flux. Pour un NextSeq 2000 générant 400 millions de lectures, le multiplexage de 96 échantillons d'exome à 4 millions de lectures chacun est simple. Pour un MiSeq générant 25 millions de lectures, le multiplexage de plus de 48 échantillons pour un projet d'amplicon 16S peut entraîner un nombre insuffisant de lectures par échantillon pour des estimations de diversité fiables.

La qualité des index est un autre facteur souvent négligé. Des index de faible qualité avec une forte similarité entre les séquences de codes-barres augmentent le risque de mauvaise attribution. L'utilisation d'ensembles d'index validés par le fabricant de préparation de bibliothèque—avec une distance de Hamming minimale de 3 entre deux index—minimise le cross-talk entre les échantillons dans la même course.

Pour les équipes qui préfèrent externaliser la préparation des bibliothèques, services d'analyse de données génomiques inclure la bibliothèque QC et la préparation comme partie d'un flux de travail de séquençage complet.

Figure 4 : Flux de travail de contrôle qualité de la préparation de bibliothèque — cinq points de contrôle critiques de la qualité de l'ADN d'entrée à la quantification finale de la bibliothèque.

Comprendre en détail le cycle de séquençage par synthèse (SBS)

Bien que l'introduction ait couvert le principe de base du SBS, comprendre la mécanique au niveau du cycle est utile pour le dépannage et l'interprétation des métriques de contrôle qualité.

Chaque cycle SBS se déroule en quatre étapes : (1) incorporation — un nucléotide marqué par fluorescence et à terminaison réversible est ajouté par la polymérase ; (2) imagerie — l'instrument image la surface de la cellule de flux à quatre longueurs d'onde pour identifier quelle base a été incorporée à chaque cluster ; (3) clivage — le colorant fluorescent et le groupe de terminaison sont éliminés ; (4) lavage — les réactifs non incorporés sont évacués avant le cycle suivant.

Le temps requis par cycle varie selon la plateforme. Sur le NovaSeq 6000, chaque cycle prend environ 5 à 10 minutes, y compris le temps d'imagerie. Sur le NovaSeq X avec la chimie XLEAP-SBS, le temps de cycle est réduit à 3 à 5 minutes grâce à une cinétique enzymatique plus rapide et à un système d'imagerie repensé qui capture la surface complète de la cellule de flux en moins d'expositions.

Le mode de défaillance clé au niveau du cycle est le "phasing" et le "pre-phasing". Le phasing se produit lorsque certains modèles dans un cluster n'incorporent pas un nucléotide dans un cycle donné, prenant du retard d'une base. Le pre-phasing se produit lorsque certains modèles incorporent deux bases dans un seul cycle, prenant de l'avance. Ces deux effets réduisent la synchronie du cluster et provoquent une dégradation du signal au fil des cycles successifs. C'est la raison fondamentale pour laquelle les scores de qualité diminuent vers la fin d'une lecture - ce n'est pas un défaut de l'instrument, mais une conséquence naturelle d'une synchronie imparfaite dans un processus chimique multi-cycle.

Les taux de phasage sont généralement exprimés en pourcentage par cycle. Un taux de phasage de 0,1 % signifie qu'après 100 cycles, 10 % des modèles dans chaque cluster sont en retard d'une base par rapport à la majorité. Au cycle 150, cela passe à 15 %. L'effet cumulatif détermine la limite pratique de longueur de lecture pour chaque plateforme. La spécification de phasage la plus élevée d'Illumina est généralement <0,5 % par cycle pour la chimie SBS standard et inférieure pour le XLEAP-SBS.

Les plateformes Illumina gèrent le phasage grâce à des algorithmes propriétaires qui estiment et corrigent le pourcentage de molécules en avance ou en retard. Cependant, à mesure que le nombre de cycles augmente au-delà de 150 à 300 cycles (selon la plateforme), l'effet cumulé réduit à la fois les scores Q et la longueur de lecture utilisable. C'est pourquoi le NovaSeq X avec XLEAP-SBS, qui présente des taux de phasage réduits grâce à une cinétique plus rapide et un lavage amélioré, peut maintenir des scores Q plus élevés sur des lectures plus longues par rapport à la chimie SBS standard.

Comprendre la qualité de séquençage — Scores Q, profils d'erreur et contrôle qualité des données

Scores de qualité (Q-scores) fournir la métrique principale pour évaluer la performance des séquences Illumina. Le score de qualité Phred (Q) est lié logarithmiquement à la probabilité d'une erreur d'appel de base : Q30 correspond à une probabilité d'erreur de 1/1000 (99,9 % de précision), tandis que Q20 correspond à 1/100 (99 % de précision). Le score est calculé comme Q = -10 log₁₀(P), où P est la probabilité d'une erreur d'appel de base.

Pour un run Illumina typique, les indicateurs suivants indiquent une bonne performance :

  • >85 % des bases à Q30 ou plus pour des séquences de 2 × 150 pb
  • >75 % des bases à Q30 pour des séquences de 2 × 250 pb ou plus longues
  • Taux d'erreur (mismatch d'alignement PhiX) < 1%

Interpréter un rapport de contrôle qualité de séquençageLe visualiseur d'analyse standard d'Illumina fournit plusieurs indicateurs clés qui doivent être examinés après chaque exécution :

  • Carte thermique de qualité par cycle: Montre la distribution du score Q sur tous les cycles. Un déclin progressif du début à la fin est normal ; une chute brusque au milieu de la course peut indiquer un problème de réactif ou de fluidique.
  • Composition de la base par cyclePour des bibliothèques équilibrées, les courbes A et T devraient se chevaucher, tout comme les courbes G et C. La divergence indique un biais de composition de la bibliothèque, en particulier dans les panneaux d'amplicon ou d'enrichissement.
  • Distribution du contenu GCUn pic unimodal correspondant au contenu en GC attendu du génome cible indique une complexité de bibliothèque normale. Plusieurs pics ou une distribution large et plate suggèrent une contamination ou un biais de PCR.
  • Taux de duplicationPour les bibliothèques WGS, les taux de duplication attendus sont de 5 à 15 %. Des taux plus élevés indiquent un faible ADN d'entrée, un excès de PCR ou une complexité de bibliothèque insuffisante.

Facteurs affectant les scores de qualitéPlusieurs paramètres durant le séquençage influencent la distribution finale des scores Q. Comprendre ces éléments aide à la fois dans la planification des expériences et dans le dépannage des séquençages de mauvaise qualité.

  • Position de lectureLa qualité diminue vers la fin de la lecture à mesure que l'accumulation de la décroissance du signal fluorescent s'intensifie et que les effets de phasage deviennent plus prononcés. Les 5 à 10 derniers cycles d'une lecture de 150 pb montrent généralement des scores Q inférieurs à ceux des 50 premiers cycles. C'est normal et attendu : le taux de déclin est un diagnostic utile.
  • Composition de séquenceLes régions riches en GC et les tronçons homopolymères ont tendance à avoir une qualité inférieure en raison d'une diversité de nucléotides réduite lors de l'imagerie. L'ajout d'un contrôle PhiX (5 à 20 % de la masse totale de la bibliothèque) aux bibliothèques à faible diversité fournit une référence de signal équilibrée qui améliore considérablement les scores de qualité tout au long de l'analyse.
  • Densité de clusterÀ la fois le sous-clustering et le sur-clustering réduisent la qualité. La plage de densité optimale varie selon la plateforme : pour les cellules de flux NovaSeq 6000 S4, 250 à 350 K clusters/mm² est typique. Pour le NextSeq 2000, 150 à 250 K clusters/mm² est optimal. Un écart de plus de 20 % par rapport à la plage optimale produit généralement une baisse mesurable des pourcentages Q30.
  • Diversité de la séquence d'indexDes séquences avec un faible indice de diversité (par exemple, toutes A ou toutes T) peuvent entraîner des échecs d'enregistrement pendant les premiers cycles de séquençage de la lecture de l'index. L'utilisation d'un ensemble d'index préconçu et validé par le fabricant du kit de préparation de bibliothèque évite complètement ce problème.
  • Qualité des réactifs et stockageDes réactifs de séquençage périmés ou mal stockés sont une cause cachée courante de dégradation de la qualité. La chimie SBS est sensible aux cycles de congélation-dégel et aux fluctuations de température. Suivre les directives de stockage et de manipulation du fabricant — et enregistrer les numéros de lot des réactifs et les dates d'expiration — est une étape simple mais souvent négligée.

Il est essentiel de revoir le rapport de contrôle de qualité du séquençage avant de procéder à l'analyse des données. Les sections clés comprennent la carte thermique de qualité par cycle, la composition des bases par cycle, la distribution du contenu en GC et le taux de duplication. Si un indicateur est en dehors des plages acceptables, la course doit être signalée et la cause profonde doit être investiguée avant que les données ne soient utilisées pour l'analyse en aval.

Figure 5 : Carte thermique typique du score Q d'Illumina montrant la distribution de la qualité par cycle sur un run de 2 × 150 pb.

NovaSeq X et chimie XLEAP-SBS — Qu'est-ce qui a changé et pourquoi cela importe-t-il ?

L'introduction en 2023 de la série NovaSeq X avec la chimie XLEAP-SBS représente la mise à jour de chimie Illumina la plus significative depuis une décennie. XLEAP-SBS n'est pas une révision mineure : c'est une chimie de séquençage repensée avec des améliorations mesurables en termes de vitesse, de précision et de coût. Le NovaSeq X Plus, fonctionnant à pleine capacité, peut générer jusqu'à 16 To de données par course, ce qui équivaut à séquencer plus de 500 génomes humains à une couverture de 30× en une seule course de 48 heures.

Améliorations clés par rapport au SBS standard:

  • Cinétique enzymatique plus rapideLes enzymes XLEAP-SBS incorporent les nucléotides plus rapidement, réduisant les temps de course de 2 × 150 pb de ~40 heures (NovaSeq 6000) à ~24 heures (NovaSeq X).
  • Intensité du signal amélioréeUn rapport signal-bruit plus élevé réduit les taux d'erreur, en particulier dans les cycles tardifs des longues lectures. Des données publiées par Illumina montrent une réduction de 30 à 40 % des taux d'erreur par rapport à la SBS standard sur le NovaSeq 6000.
  • Consommation réduite de réactifsLa nouvelle chimie utilise moins de réactif par base, réduisant ainsi considérablement le coût par Gb par rapport à la chimie SBS standard.
  • Débit plus élevé par courseLes cellules de flux 25B et 100B supportent une échelle auparavant impossible : un seul run NovaSeq X Plus peut produire 16 To de données, équivalent à environ 500 génomes humains à une couverture de 30×.

Implications pratiques pour les chercheursLe NovaSeq X ne remplace pas toutes les plateformes Illumina précédentes. Pour les projets à petite échelle (moins de 50 échantillons), le MiSeq et le NextSeq restent plus pratiques en raison de leurs coûts de fonctionnement minimums plus bas et de leur délai d'exécution plus rapide. Le NovaSeq X est transformateur pour les projets nécessitant un séquençage à grande échelle et rentable : études de population, analyses de cohortes longitudinales et projets d'atlas de cellules uniques.

Figure 6 : XLEAP-SBS par rapport à la chimie SBS standard — améliorations clés en termes de vitesse, d'intensité du signal et de consommation de réactifs

Analyse des données NGS — Des BCL à l'insight biologique

Le pipeline d'analyse des données pour le séquençage Illumina suit une structure standard en trois niveaux :

Analyse primaire (sur l'instrument)L'instrument de séquençage effectue un appel de bases en temps réel, convertissant les images de fluorescence en fichiers BCL (Binary Base Call), puis en format FASTQ. Cette étape est entièrement automatisée et nécessite généralement aucune intervention de l'utilisateur. Les plateformes modernes fournissent des métriques de qualité en temps réel accessibles pendant le déroulement de l'analyse.

Analyse secondaire (gérée par l'utilisateur)Les fichiers FASTQ sont traités par alignement (STAR pour l'ARN, BWA-MEM pour l'ADN, HISAT2 pour le transcriptome) et appel de variants (GATK, FreeBayes, Strelka2). Cette étape nécessite 32 à 64 Go de RAM pour le séquençage génomique humain et un stockage substantiel : un seul génome humain 30× génère environ 100 à 200 Go de données FASTQ et environ 50 à 100 Go de fichiers BAM alignés.

Analyse tertiaire (interprétation biologique)Les variants annotés sont filtrés, priorisés et interprétés dans le contexte biologique de l'étude. Les outils d'analyse tertiaire courants incluent ANNOVAR, SnpEff, VEP pour l'annotation, ainsi qu'une variété de packages d'analyse de voies et d'enrichissement.

Considérations critiques pour l'analyse des données:

  • Version du génome de référenceGRCh38 (avec correctifs) reste la référence humaine standard. La référence T2T-CHR13 offre une représentation plus complète mais n'est pas encore universellement adoptée. Les résultats des pipelines peuvent différer considérablement entre les versions de référence.
  • Planification de stockageUn projet WGS typique nécessite 3 à 5 fois l'espace de stockage FASTQ brut pour les fichiers intermédiaires. Prévoyez 600 Go à 1 To par génome humain à 30×, y compris les fichiers FASTQ, BAM, VCF et les fichiers temporaires de pipeline.
  • Infrastructure informatiqueL'analyse basée sur le cloud (AWS, Google Cloud ou plateformes de bioinformatique dédiées) est de plus en plus privilégiée par rapport aux serveurs locaux pour les grands projets, éliminant ainsi le besoin d'investissement en capital dans le matériel informatique. Le principal compromis est le temps de transfert des données : le téléchargement de 10 To de fichiers FASTQ peut prendre de 2 à 5 jours selon la vitesse de connexion. Les approches hybrides (stockage local + calcul dans le cloud) sont courantes pour les projets à grande échelle.
  • Reproductibilité des pipelinesL'utilisation de pipelines conteneurisés (Docker, Singularity) ou de gestionnaires de flux de travail (Nextflow, Snakemake, Cromwell) garantit que la même analyse est appliquée de manière cohérente à tous les échantillons d'un projet. Cela est essentiel pour maintenir la comparabilité des données, en particulier dans les études multi-batch ou collaboratives.

Pour les équipes de recherche sans capacité de bioinformatique en interne, services d'analyse de données génomiques fournir un accès à des pipelines établis couvrant l'alignement, l'appel de variants et l'interprétation biologique.

Figure 7 : Pipeline d'analyse des données NGS en trois niveaux — de BCL à FASTQ, à BAM aligné, à interprétation biologique

Planification d'un projet de séquençage Illumina réussi — Un cadre étape par étape

Au-delà des détails techniques de chaque étape du flux de travail, les projets Illumina réussis partagent un cadre de planification commun. Suivre cette structure minimise le risque de révisions ou de reprises coûteuses en cours de projet.

  1. Définir la question biologique et déterminer le type de test optimal. S'agit-il d'une étude de découverte (WGS, RNA-seq), d'un suivi ciblé (WES, panel ciblé) ou d'une application de dépistage (panel d'amplicons) ? Le type d'essai détermine tous les paramètres en aval.
  2. Calculer la profondeur de séquençage requise. Pour le séquençage génomique humain, un taux de couverture de 30× est suffisant pour la plupart des applications germinales. La détection de variantes rares peut nécessiter 60×. L'expression génique par RNA-seq nécessite entre 20 et 50 millions de lectures par échantillon ; l'analyse au niveau des isoformes nécessite plus de 100 millions. Les panneaux ciblés nécessitent une couverture de 500 à 1 000× par amplicon pour un appel de variantes fiable.
  3. Sélectionnez la plateforme et la cellule de flux. Faire correspondre le total des exigences de lecture (lectures par échantillon × nombre d'échantillons + 10–20 % de sur-séquençage) aux plateformes disponibles. La plateforme sélectionnée doit fournir le débit requis sans capacité inutilisée. Un run MiSeq générant 15 Go est approprié pour de petites études d'amplicons mais inefficace pour un grand projet d'exome ; un flux NovaSeq X avec une sortie à l'échelle des térabits est excessif pour une petite étude pilote.
  4. Concevoir des bibliothèques avec des points de contrôle de qualité. Plan pour les traces de Bioanalyzer après fragmentation et après la bibliothèque finale, quantification par qPCR, et un essai pilote à petite échelle pour de nouveaux types de bibliothèques. Chaque point de contrôle doit avoir un critère de réussite/échec prédéfini.
  5. Inclure des contrôles expérimentaux. Un échantillon de contrôle positif avec des variants connus valide le flux de travail de la préparation de la bibliothèque jusqu'à l'appel de variants. Un contrôle négatif (sans modèle) identifie la contamination. L'ajout de PhiX (typiquement 1 % pour le séquençage du génome entier, 5 à 20 % pour des bibliothèques à faible diversité comme les amplicons) fournit une norme d'étalonnage pour l'évaluation de la qualité.
  6. Planifiez l'analyse des données avant le début du séquençage. La sélection des pipelines, la version du génome de référence, les ressources informatiques et la capacité de stockage doivent tous être en place avant la fin du premier cycle de séquençage. Le séquençage génère des données plus rapidement que la plupart des chercheurs ne s'y attendent - un NovaSeq X produisant 16 To en 48 heures nécessite une capacité en aval tout aussi rapide.

Échecs courants dans les flux de travail et comment les éviter

Mode de défaillanceCause profondePrévention
Densité de cluster faibleConcentration de la bibliothèque sous-estimée ; quantification qPCR inexacteUtilisez la qPCR pour la quantification finale ; effectuez un test de chargement de titration pour les nouveaux types de bibliothèques ; validez croisée avec Qubit.
Sur-clusteringConcentration de la bibliothèque surestimée ; chargement de la cellule d'écoulement à motifs trop élevé.Validez avec deux méthodes orthogonales ; diluez de manière conservatrice ; commencez au point médian de la plage de chargement recommandée.
Taux de duplication >30%ADN d'entrée insuffisant ; trop de cycles PCR ; faible complexité de la bibliothèqueUtilisez ≥100 ng d'ADN d'entrée lorsque cela est possible ; limitez à ≤8 cycles de PCR ; envisagez une préparation de bibliothèque sans PCR pour le séquençage du génome entier.
Saut d'indexIndex de l'adaptateur sans résidu sur des cellules de flux structuréesUtilisez des index doubles uniques (UDI) au lieu d'index simples ; l'UDI élimine complètement le risque de saut d'index.
Faible Q30 dans les cycles finauxLa longueur de lecture dépasse la plage chimique effective ; accumulation de phasage.Utilisez la longueur de lecture maximale recommandée par la plateforme ; effectuez un test pilote avant la production à grande échelle.
Contamination par des adaptateurs dans les lecturesNettoyage incomplet après la ligation de l'adaptateur ; fragments d'insertion courtsOptimiser le rapport de billes SPRI ; ajouter une sélection de taille basée sur un gel pour les types d'échantillons problématiques.
Taux de discordance PhiX >2%Dégradation des réactifs ; défauts de cellule d'écoulement ; dérive de calibration de l'appel de bases.Enregistrez les numéros de lot de réactifs et les dates d'expiration ; vérifiez la cellule d'écoulement ; recalibrez si le problème persiste.

Chaque mode de défaillance a une cause profonde spécifique et une action préventive claire. Détecter les problèmes tôt grâce à des essais pilotes à petite échelle—en testant les concentrations de charge sur 3 à 4 dilutions avant la production à grande échelle—prévent les échecs de séquençage les plus coûteux.

Comment CD Genomics soutient les projets NGS Illumina

CD Genomics propose des services de séquençage Illumina de bout en bout couvrant l'ensemble du pipeline de projet, de la conception expérimentale à la livraison des données.

Disponibilité de la plateformeNotre laboratoire est équipé des systèmes NovaSeq X Plus, NovaSeq 6000, NextSeq 2000 et MiSeq, couvrant toute la gamme de débit, des petits panneaux ciblés au séquençage génomique à l'échelle de la population. Chaque plateforme est maintenue selon des protocoles de contrôle qualité rigoureux pour garantir une qualité de données constante. Notre choix de plateforme est guidé par les paramètres de votre projet, et non par ce que nous avons à disposition, car nous avons tous les systèmes Illumina en opération active.

Préparation de bibliothèque complèteNous proposons des protocoles de préparation de bibliothèques standard, à faible entrée, sans PCR et à ultra-faible entrée, optimisés pour différents types d'échantillons, y compris le sang, les tissus, les FFPE, l'ADNcf et les cellules uniques. Contrôles de qualité à chaque étape.

Analyse et interprétation des donnéesLes livrables standard incluent des fichiers FASTQ avec des rapports de contrôle de qualité et une analyse secondaire optionnelle (pipeline BWA/GATK, quantification RNA-seq) et une analyse tertiaire (annotation des variants, enrichissement fonctionnel). Pour les projets plus importants, nous pouvons fournir des pipelines d'analyse basés sur le cloud qui s'adaptent à votre volume de données.

Consultation de projetNotre équipe aide à faire correspondre les paramètres de votre projet à la plateforme optimale, à la configuration de la cellule de flux et à la stratégie de séquençage pour maximiser la qualité des données tout en minimisant les coûts. Une consultation typique couvre : la sortie de données attendue, la longueur de lecture optimale et la profondeur de couverture, la configuration de course (simple vs. paire), la stratégie de multiplexage et les exigences d'analyse des données.

Pour plus de détails, explorez notre services NGS ou contactez notre équipe pour une consultation spécifique au projet.

FAQ

Quelle est la différence entre la chimie SBS et XLEAP-SBS ?
XLEAP-SBS est une chimie de séquençage repensée introduite avec NovaSeq X. Elle offre des temps de course plus rapides, une intensité de signal plus élevée et une consommation de réactifs réduite par rapport à la chimie SBS standard utilisée sur les anciennes plateformes Illumina.

Comment choisir entre MiSeq, NextSeq et NovaSeq pour mon projet ?
Commencez par calculer votre besoin total en lectures (lectures par échantillon × nombre d'échantillons). MiSeq convient aux petits panneaux et aux projets d'amplicons. NextSeq s'adapte aux projets de taille moyenne comme l'ARN-seq et le séquençage d'exomes. Les plateformes de la classe NovaSeq sont conçues pour des études de WGS à grande échelle et des études de population.

Quelle densité de clusters devrais-je viser sur un flacon de flux NovaSeq 6000 S4 ?
La plage optimale est généralement de 250 à 350 K clusters par mm². Des valeurs en dehors de cette plage peuvent réduire le rendement ou la qualité des données.

Pourquoi mon score Q30 de séquençage est-il plus bas que prévu ?
Les causes courantes incluent : une bibliothèque avec une faible diversité de nucléotides (ajouter plus de PhiX), un sur- ou sous-clustering, de l'ADN/ARN d'entrée dégradé, ou l'utilisation d'une longueur de lecture qui dépasse la plage optimale de la plateforme.

Comment puis-je savoir si ma préparation de bibliothèque a réussi avant le séquençage ?
Une bibliothèque réussie devrait montrer un pic clair sur la trace du Bioanalyzer dans la plage de taille attendue, une contamination minimale par des dimères d'adaptateurs (<5 % de la masse de la bibliothèque) et des résultats de quantification qPCR cohérents.

Qu'est-ce qui cause les dimères d'adaptateur et comment puis-je les enlever ?
Les dimères d'adaptateurs se forment lorsque des molécules d'adaptateurs se lient entre elles au lieu de se lier à l'ADN inséré. Ils peuvent être éliminés en augmentant le ratio de billes SPRI lors du nettoyage ou en ajoutant une étape de sélection de taille basée sur un gel.

Quelle est la différence entre le saut d'index et le croisement d'index ?
Le saut d'index se produit lorsque des amorces d'index libres résiduelles annotent incorrectement des clusters voisins, entraînant l'apparition de lectures d'un échantillon dans un autre. Le croisement d'index résulte d'une interférence de signal entre les séquences d'index lors de l'imagerie. Les UDI (index doubles uniques) éliminent efficacement le saut d'index.

Quelles données devrais-je attendre d'un séquençage WGS 30× humain ?
Environ 90 à 100 Go de données brutes par échantillon, produisant environ 100 à 200 Go de fichiers FASTQ, 50 à 100 Go de fichiers BAM alignés et 1 à 2 Go de fichiers gVCF.

De combien d'espace de stockage ai-je besoin pour un projet NGS ?
Prévoyez 3 à 5 fois la taille brute des fichiers FASTQ pour accueillir les fichiers d'analyse intermédiaires. Pour un projet de séquençage génomique complet (WGS) de 100 échantillons, cela signifie un stockage total de 30 à 50 To.

Quelle version du génome de référence devrais-je utiliser pour les données de séquençage humain ?
GRCh38 est la norme actuelle pour la plupart des applications. T2T-CHR13 est plus complet mais n'est pas encore pris en charge par tous les outils d'analyse. Faites correspondre la version de référence aux exigences des outils et aux normes de la communauté pour votre application spécifique.

Références

  1. Aperçu du flux de travail NGS d'Illumina. Illumina, Inc.
  2. Scores de qualité pour le séquençage de nouvelle génération. Note technique Illumina.
  3. Profils d'erreurs de séquençage des instruments de séquençage Illumina. Génomique et bioinformatique NAR. 2021;3(1):lqab019.
  4. Chimie et imagerie sur la série NovaSeq X. Base de connaissances Illumina.
  5. Optimisation de la densité des clusters sur les instruments de séquençage Illumina. GenoHub.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut