Séquençage de nouvelle génération (NGS) est une technique d'analyse génétique révolutionnaire qui consiste à fragmenter le matériel génétique (ADN ou ARN) et à attacher des oligonucléotides avec des séquences connues par un processus appelé ligation d'adaptateurs. Cela permet aux fragments résultants d'interagir avec la plateforme de séquençage sélectionnée. Par la suite, les bases de chaque fragment sont identifiées en fonction de leurs signaux d'émission.
La distinction clé entre Séquençage de Sanger et le NGS se situe à l'échelle du séquençage ; le NGS peut traiter simultanément des millions de réactions, offrant un rendement exceptionnel, une sensibilité accrue, des résultats rapides et un rapport coût-efficacité. Il est désormais possible de réaliser de nombreux projets de séquençage de génomes en quelques heures, une tâche qui aurait pris beaucoup plus de temps en utilisant les méthodes de séquençage Sanger traditionnelles.
La technologie NGS suit principalement deux approches principales : les lectures courtes et séquençage à lecture longue, chacun offrant ses propres avantages et limitations uniques. La force motrice derrière l'investissement considérable dans le développement du NGS est son applicabilité polyvalente tant dans les contextes cliniques que de recherche.
Pour le séquençage à lecture longue, veuillez vous référer aux articles. Séquençage par nanopore : principes, plateformes et avantages et Aperçu du séquençage PacBio SMRT : principes, flux de travail et applications pour plus d'informations.
Les méthodes de séquençage de nouvelle génération sont bien établies et partagent des caractéristiques communes, mais elles peuvent être catégorisées en fonction de leur chimie de détection sous-jacente. Ces catégories incluent le séquençage par ligation et le séquençage par synthèse (SBS).
Veuillez vous référer à Plateformes de séquençage CD Genomics.
La méthode SBS la plus répandue est le séquençage par terminateur réversible, qui utilise l'"amplification en pont". Dans ce processus, des fragments d'ADN se fixent à des oligonucléotides sur une cellule de flux, formant un pont d'un côté de la séquence à l'autre. Ce pont est ensuite amplifié, et des nucléotides marqués par fluorescence sont détectés par imagerie directe.
Principe du séquençage Illumina (séquençage par synthèse). (Untergasser et al., 2019)
Contrairement à SBS, le séquençage par ligation ne nécessite pas d'ADN polymérase pour générer un second brin. Au lieu de cela, des signaux de fluorescence sont utilisés pour identifier la séquence cible, tirant parti de la sensibilité de l'ADN ligase pour détecter les incompatibilités de paires de bases.
technologies NGS offrent généralement plusieurs avantages par rapport aux méthodes de séquençage alternatives, permettant des lectures de séquençage rapides, sensibles et rentables. Néanmoins, il existe des inconvénients, tels que les difficultés d'interprétation des homopolymères et les erreurs de polymérase dues à une incorporation incorrecte des dNTP, ce qui peut entraîner des erreurs de séquençage.
Une limitation majeure de toutes les technologies de séquençage à haut débit (NGS) est la nécessité d'une amplification par PCR avant le séquençage, ce qui introduit des biais lors de la préparation de la bibliothèque (liés au contenu en GC des séquences, à la longueur des fragments et à la pseudo-diversité) et lors de l'analyse (aboutissant à des erreurs de base et favorisant certaines séquences par rapport à d'autres).
Séquençage en temps réel à molécule unique (SMRT) de PacBio exploite le concept de séquençage tout en synthétisant, en utilisant la puce SMRT comme support de séquençage. Cette puce contient de nombreux pores minuscules, chacun abritant une molécule d'ADN polymérase. Pendant le processus d'appariement des bases, des bases nucléotidiques distinctes sont incorporées, émettant des longueurs d'onde et des valeurs de pic de lumière uniques. Ces signaux émis servent à déterminer le type de base incorporée. Fait remarquable, le séquençage SMRT fonctionne à un rythme étonnant, traitant plusieurs désoxyribonucléosides triphosphates (dNTP) par seconde.
Séquençage Oxford Nanopore se distingue des technologies de séquençage précédentes car elle repose sur des signaux électriques plutôt que sur des signaux optiques. Un composant clé de cette technologie est un nanopore spécialement conçu, capable d'accueillir uniquement une seule molécule d'ADN, avec des jonctions moléculaires attachées de manière covalente à l'intérieur. Lorsque les bases de l'ADN traversent le nanopore, elles induisent des changements transitoires de charge électrique, affectant l'intensité du courant passant à travers le nanopore. Chaque type de base entraîne une altération distincte de l'intensité du courant, qui est détectée de manière sensible par l'électronique, permettant ainsi l'identification des bases en transit.
(1) Préparation de l'échantillon (Prétraitement)
Les acides nucléiques (ADN ou ARN) sont extraits d'échantillons choisis (par exemple, du sang, des crachats, de la moelle osseuse). Les échantillons extraits subissent une évaluation de contrôle de qualité (CQ) à l'aide de méthodes standard telles que la spectrophotométrie, la fluorimétrie ou l'électrophorèse sur gel. Si ARN est employé, cela peut nécessiter une transcription inverse pour générer de l'ADNc, bien que certains kits de préparation de bibliothèques puissent intégrer cette étape.
Veuillez vous référer à notre Directives de Soumission d'Échantillons pour plus d'informations.
(2) Optimisation et amélioration des bibliothèques NGS
L'ADNc ou l'ADN est généralement fragmenté de manière aléatoire par un traitement enzymatique ou par sonication. La longueur optimale des fragments dépend de la plateforme de séquençage utilisée. L'optimisation peut impliquer l'exécution d'un petit sous-ensemble d'échantillons fragmentés sur un gel d'électrophorèse. Ces fragments sont ensuite réparés aux extrémités et liés à des fragments d'ADN génériques plus courts appelés adaptateurs. Ces adaptateurs possèdent une longueur définie et des séquences d'oligonucléotides connues compatibles avec la plateforme de séquençage choisie, permettant leur reconnaissance lors du séquençage multiplex. Le séquençage multiplex, utilisant les séquences d'adaptateurs respectives pour chaque échantillon, permet le séquençage simultané de nombreuses bibliothèques en une seule course. Le pool de fragments d'ADN avec adaptateurs est appelé la bibliothèque de séquençage.
Veuillez vous référer à notre article. Contrôle de la qualité dans le flux de travail de préparation de bibliothèques NGS pour plus d'informations.
La sélection de taille peut être réalisée par électrophorèse sur gel ou par l'utilisation de billes magnétiques pour éliminer les fragments excessivement courts ou longs qui pourraient ne pas fonctionner de manière optimale sur la plateforme et le protocole de séquençage sélectionnés. La PCR est ensuite utilisée pour amplifier/enrichir la bibliothèque. Dans les techniques impliquant la PCR en émulsion, chaque fragment est attaché à une bille d'émulsion individuelle, qui constitue la base du cluster de séquençage. Une étape de "nettoyage", souvent réalisée avec des billes magnétiques, est effectuée après l'amplification pour éliminer les fragments indésirables et améliorer l'efficacité du séquençage.
La bibliothèque finale peut être soumise à un contrôle de qualité en utilisant la PCR quantitative (qPCR) pour confirmer à la fois la qualité et la quantité d'ADN. Cette étape facilite également la préparation d'échantillons avec la concentration appropriée pour le séquençage.
(3) Séquençage
Selon la plateforme choisie et la chimie, l'amplification clonale des fragments de bibliothèque peut se produire soit avant le chargement du séquenceur (PCR), soit sur le séquenceur lui-même (PCR en pont). Les séquences sont ensuite détectées et rapportées en fonction de la plateforme sélectionnée.
(4) Analyse des données
Les fichiers de données générés sont analysés conformément au flux de travail spécifique utilisé. Méthodes d'analyse sont fortement dépendants des objectifs de l'étude.
Bien que le séquençage en paires et le séquençage en paires séparées puissent réduire le nombre d'échantillons analysés en une seule fois, ils offrent des avantages distincts dans l'analyse des données en aval, en particulier pour l'assemblage de novo. Ces technologies combinent les lectures de séquençage obtenues des deux extrémités d'un fragment (paires) ou celles séparées par des régions d'ADN interstitielles (paires séparées).
(a) Formuler la question de recherche
(b) Sélection du type d'échantillon
(c) Décider entre les lectures courtes ou séquençage à lecture longue
(d) Déterminer si un séquençage d'ADN ou d'ARN est nécessairegénome ou analyse du transcriptome)
(e) Définir le champ d'application, qu'il s'agisse de l'ensemble du génome ou de régions spécifiques.
(f) Établir la profondeur de lecture nécessaire (couverture) adaptée à l'expérience
(g) En tenant compte de la méthode d'extraction
(h) Évaluation de la concentration d'échantillon
(i) Sélectionner entre des lectures en simple sens, en paire ou en paire de paires
(j) Spécification de la longueur de lecture requise
(k) Explorer la faisabilité du multiplexage des échantillons
(l) Évaluation du bioinformatique outils nécessaires, qui varient en fonction de l'expérience. L'ensemble du processus d'analyse de séquence peut être adapté en fonction de l'échantillon et de la question biologique en jeu.
Chaque technologie de séquençage de nouvelle génération (NGS) génère un volume important de données de sortie. Le flux de travail d'analyse de séquence fondamental est centralisé et comprend plusieurs étapes clés : le contrôle de qualité des lectures brutes, le prétraitement et l'alignement des données, suivis du post-traitement et de l'annotation des variants. appel de variantes, et visualisation.
La première étape de ce flux de travail consiste à évaluer la qualité des données de séquençage brutes, une condition préalable cruciale pour toutes les analyses en aval. Cette évaluation fournit des informations essentielles sur l'ensemble des données, y compris la quantité et la longueur des lectures, la présence de séquences contaminantes et toute lecture avec une couverture insuffisante.
Veuillez vous référer à notre service. Service de bioinformatique pour le séquençage de nouvelle génération pour plus d'informations.
Le séquençage de nouvelle génération (NGS) a révolutionné notre capacité à explorer et étudier les génomes. Dans les contextes cliniques, le NGS joue un rôle crucial dans le diagnostic d'un large éventail de maladies en détectant des mutations germinales ou somatiques. L'adoption croissante du NGS dans la pratique clinique est justifiée par sa capacité à associer efficacement une technologie avancée à des coûts en baisse.
De plus, le séquençage de nouvelle génération (NGS) est un outil indispensable dans le domaine de la recherche en métagénomique, permettant le diagnostic, la surveillance et la gestion des maladies infectieuses. En 2020, méthodes NGS a joué un rôle clé dans la caractérisation du génome du SARS-CoV-2 et continue d'être essentiel pour le suivi de la pandémie de COVID-19 en cours.
Cependant, les complexités du traitement des échantillons NGS révèlent des défis significatifs dans la gestion, l'analyse et le stockage des données. L'un des principaux défis est les ressources informatiques substantielles nécessaires pour des tâches telles que l'assemblage, l'annotation et l'analyse des données.
De plus, le volume de données produit par le séquençage de nouvelle génération (NGS) constitue un obstacle considérable. Les centres de données sont confrontés à des exigences de stockage élevées et peinent à suivre l'augmentation de la charge de données, ce qui soulève des inquiétudes quant au risque de perte permanente de données. Des efforts continus sont déployés pour améliorer l'efficacité, réduire les erreurs de séquençage, maximiser la reproductibilité et garantir une gestion robuste des données afin de relever ces défis.
Référence: