Aperçu du séquençage SMRT de PacBio : principes, flux de travail et applications

Aperçu du séquençage PacBio

Séquençage de Pacific Biosciences (PacBio) incarne une méthode de séquençage de troisième génération essentielle, dans le jargon technique, appelée "Séquençage ADN en Temps Réel à Molécule Unique (SMRT)". Cette approche directe contourne la nécessité d'amplification de l'ADN, facilitant ainsi une lecture rapide des séquences. En contraste avec les procédures de séquençage conventionnelles qui nécessitent de fragmenter l'ADN en portions plus petites pour le séquençage, Séquençage PacBiod'autre part, effectue une lecture en temps réel de l'ensemble de la molécule d'ADN alors qu'elle passe à travers un appareil de séquençage spécialisé.

Depuis sa création en 2005, PacBio a été un pionnier dans le domaine de la génomique avec l'avènement de sa technologie de séquençage unique à temps réel sur molécule unique (SMRT). En exploitant la puissance des réseaux de guides d'ondes en mode zéro (ZMW), la technologie SMRT permet le séquençage en temps réel de molécules d'ADN pouvant atteindre des dizaines de milliers de paires de bases de longueur.

En 2010, PacBio a dévoilé son système de séquençage SMRT de premier plan, le PacBio RS, qui vantait des avantages tels qu'un débit élevé, de longues lectures et une précision. En 2015, après des améliorations considérables des réactifs et des logiciels d'analyse, la plateforme RSII de PacBio a commencé à gagner du terrain dans le domaine de la recherche génomique. Un flux constant d'articles utilisant cette technologie a été publié dans des revues renommées telles que Nature et Science. Plus précisément, plusieurs articles sur le génome humain, abordant tout, de l'amélioration du génome au développement d'algorithmes d'assemblage, sont apparus en succession rapide.

Ces dernières années, PacBio a continuellement affiné sa technologie de séquençage, menant au lancement des systèmes Sequel II et Sequel IIe. Ces plateformes de deuxième génération augmentent considérablement l'efficacité et la précision du séquençage, grâce à un matériel et un logiciel améliorés qui prennent en charge le traitement CCS sur l'instrument. Cela permet aux clients d'utiliser directement les lectures HiFi pour les analyses ultérieures. Ces améliorations minimisent la complexité des flux de travail, accélèrent la livraison des résultats et réduisent le coût global du système, contribuant ainsi à la démocratisation de la recherche génomique.

Principe du séquençage SMRT de PacBio

L'utilisation de Séquençage PacBio adopte une méthodologie caractérisée par une synthèse et un séquençage simultanés, utilisant la puce SMRT comme vecteur de séquençage. Cette technique fonctionne sur le principe de l'activité de l'ADN polymérase. Fondamentalement, l'ADN polymérase se lie à l'ADN modèle, où chacune des quatre bases nucléotidiques (dNTPs) est étiquetée de manière fluorescente avec des couleurs distinctes.

Lors de la phase d'appariement des bases, l'incorporation de différents nucléotides émet des longueurs d'onde de lumière variées, discernables par leurs pics et longueurs d'onde respectifs. De plus, l'enzyme ADN polymérase joue un rôle essentiel dans l'obtention de lectures exceptionnellement longues, une caractéristique attribuée à son activité enzymatique. La longueur des lectures est principalement corrélée au maintien de l'activité enzymatique, qui est à son tour influencée de manière significative par les dommages causés par l'irradiation au laser.

La construction de la bibliothèque PacBio de troisième génération implique de relier les extrémités des molécules d'ADN double brin (fragments de longueurs variant de 10 à 20 kb ou plus) avec des adaptateurs PacBio qui possèdent des structures en épingle à cheveux. Cela entraîne la formation d'une structure en forme de haltère connue sous le nom de bibliothèque SMRTbell. Lors du séquençage, la polymérase émet un signal fluorescent sous l'influence des nucléotides marqués par fluorescence. Ce signal est collecté par une caméra à dispositif à charge couplée (CCD). La procédure est répétée sur la bibliothèque cyclique, permettant ainsi de compléter le séquençage.

Le Séquençage SMRT de PacBio utilise la technologie innovante de guide d'onde à mode zéro (ZMW) pour différencier les signaux de fluorescence idéaux des arrière-plans fluorescents intenses causés par des nucléotides flottants librement. L'ADN polymérase liée et le brin d'ADN modèle sont fixés à la surface en verre à la base du ZMW. Des lasers pénètrent à travers la base du ZMW, mais ne la pénètrent pas complètement en raison du fait que la taille du ZMW est plus petite que la longueur d'onde de la lumière. Ainsi, cela permet une excitation sélective et une reconnaissance de la lumière émise par les nucléotides utilisés pour l'extension de base.

Flux de travail du séquençage PacBio SMRT

Le flux de travail de Séquençage PacBio implique des étapes telles que la préparation des échantillons, la construction de la bibliothèque, la réaction de séquençage, l'analyse des données et l'interprétation des résultats.

La préparation des échantillons implique principalement l'isolement de l'ADN à partir des échantillons à tester. Les échantillons d'ADN peuvent être obtenus à partir de bactéries, de plantes, d'animaux ou de cellules humaines.

La construction de bibliothèques comprend plusieurs étapes : évaluer la qualité de l'ADN génomique (ADNg), fragmenter l'ADNg à l'aide d'un g-TUBE (Covaris) ; sélectionner la taille et ajuster la concentration ; réparer les dommages à l'ADN et les extrémités des fragments d'ADN ; purifier l'ADN ; réaliser une ligature à bouts francs à l'aide d'adaptateurs en épingle ; et purifier le modèle pour soumission au séquenceur.

Template Preparation Workflow for PacBio RS II system.Figure 1. Flux de préparation des modèles pour le système PacBio RS II.

Pour la réaction de séquençage, comme illustré dans la Figure 2, le SMRTbell (représenté en gris) diffuse dans le Guide d'Onde en Mode Zéro (ZMW) et l'adaptateur se lie à la polymérase fixée au fond. Les quatre types de nucléotides sont marqués avec des colorants fluorescents distincts (représentés en rouge, jaune, vert et bleu, correspondant respectivement à G, C, T et A), ce qui leur confère des spectres d'émission différents. La polymérase produit une impulsion de lumière qui identifie la base lorsqu'elle retient le nucléotide dans le volume de détection.

La réaction implique le nucléotide marqué par fluorescence se liant au modèle au site actif de la polymérase. (1) La fluorescence augmente en fonction de la base incorporée (ici C représentée en jaune). (2) Le conjugué de pyrophosphate marqué par un colorant se détache du nucléotide et diffuse hors du ZMW, mettant fin à l'impulsion fluorescente. (3) La polymérase avance à la position suivante. (4) Le nucléotide suivant se lie au modèle au site actif de la polymérase, initiant la prochaine impulsion fluorescente, correspondant à la base A dans ce contexte.

Sequencing via light pulses.Figure 2. Séquençage par impulsions lumineuses.

L'analyse bioinformatique, telle que l'assemblage de novo, le mapping sur un génome de référence, l'annotation génomique (prédiction des gènes pathogènes et de susceptibilité, prédiction des ARN non codants, prédiction des CRISPR), l'annotation de fonction des gènes (COG/GO/KEGG), l'identification des SNP/InDel, l'analyse génomique comparative, ainsi que l'analyse évolutive et l'estimation du temps de divergence, sont des étapes viables.

Full-length transcriptome sequencing and assembly of C. album by the SMRT method. (Ye et al., 2024)Figure 3. Séquençage et assemblage du transcriptome complet de C. album par la méthode SMRT. (Ye et al., 2024)

Avantages du séquençage PacBio

Séquençage PacBio dispose de nombreuses excellentes fonctionnalités comme suit :

Longueur de lecture de séquençage exceptionnellement longue : La longueur moyenne des lectures de séquençage peut atteindre 8-15 kb, les séquences les plus longues atteignant jusqu'à 40-70 kb.

Haute précision : Pour l'assemblage du génome et la détection de variantes génomiques, une précision allant jusqu'à 99,999 % peut être atteinte. En utilisant un mode de séquençage spécial, la précision de séquençage peut atteindre 99 % au niveau de la molécule unique avec une longueur de lecture dépassant celle de la méthode de séquençage Sanger classique.

Sensibilité extrême : Peut détecter des variantes mineures avec une fréquence de 0,1 %.

Détection de modification à large base directe : En plus de la détection de la modification 5-méthylcytosine, il est également possible d'identifier la N6-méthyladénine, la N4-méthylcytosine, les dommages d'oxydation de l'ADN et d'autres modifications de bases.

Biais GC minimum : La détection confortable est rendue possible dans des zones de GC extrêmement élevé et de GC extrêmement bas, garantissant ainsi une couverture uniforme des séquences.

Aucun biais d'amplification PCR : L'amplification par PCR n'est pas nécessaire pour les échantillons, évitant ainsi une couverture inégale et une redondance PCR.

Épigénétique : Comme il n'y a pas d'étape d'amplification PCR, les modifications de bases peuvent être détectées directement lors du séquençage. La nécessité de modifications chimiques pour détecter les modifications de bases est écartée grâce à la mesure des changements de cinétique de la polymérase lors de l'incorporation des bases d'ADN. Cela permet de capturer simultanément les informations de séquence et épigénétiques au cours d'une seule expérience.

Différences entre PacBio, Illumina et Nanopore

Le principe du séquençage Illumina repose sur l'accumulation de milliers de signaux de fluorescence pour séquencer avec précision des nucléotides individuels, produisant des lectures relativement courtes pour le traitement des données, avec des longueurs de lecture allant jusqu'à 600 pb et un taux d'erreur minimum de 1 %. En plus d'une grande précision, il offre un volume de données élevé et des prix relativement bas. Cependant, le séquençage Illumina, basé sur la PCR, tend à présenter un biais GC et est limité par ses longueurs de lecture plus courtes, ce qui le rend inadapté à l'assemblage de longues séquences répétitives et restreint ses applications plus larges, telles que l'assemblage de génomes et la détection de longs ARN non codants.

Séquençage PacBioégalement connu sous le nom de séquençage en temps réel à molécule unique (SMRT), utilise la technologie de guide d'onde à mode zéro (ZMW) pour confiner des molécules d'ADN individuelles et de l'ADN polymérase à l'intérieur d'un pore ZMW, permettant le séquençage tout en synthétisant, ce qui permet d'obtenir facilement des longueurs de lecture de plusieurs dizaines de kilobases avec une qualité de lecture moyenne allant jusqu'à 99 %. Cependant, en raison de l'indépendance des pores ZMW et du séquençage en temps réel, le taux d'erreur des lectures a atteint 15 %, posant des défis importants pour l'analyse des données ultérieures. Récemment, PacBio a introduit le mode CCS, qui réduit considérablement le taux d'erreur par le séquençage multiple de molécules individuelles. Cette méthode de séquençage est particulièrement adaptée à l'assemblage de génomes, à la méthylation de l'ADN, à la méthylation de l'ARN, à la détection de variations structurelles et à l'analyse du transcriptome à longues lectures.

Séquençage par nanopore atteint des longueurs de lecture longues allant jusqu'à plusieurs dizaines de kilobases en guidant des molécules d'ADN ou d'ARN à travers des nanopores sur une membrane, avec des records dépassant les mégabases (comme l'obtention de données de séquençage de 2,3 Mb dans le génome humain). Cette méthode de séquençage ne repose pas sur l'amplification par PCR, évitant ainsi les problèmes de biais GC. Bien que les types d'erreurs consistent principalement en des insertions et des suppressions, elles sont aléatoires, et les taux d'erreur peuvent être réduits par un séquençage répété. Cela rend séquençage par nanopore avantageux dans l'assemblage du génome, le séquençage direct de l'ARN et la détection des mutations somatiques.

En conclusion, chacune de ces trois méthodes de séquençage a ses propres avantages et inconvénients, et le choix de la stratégie de séquençage doit être basé sur les exigences spécifiques de la recherche.

Applications du séquençage SMRT de PacBio

Séquençage SMRT de PacBio a de nombreuses applications telles que le séquençage de génome complet de novo, l'optimisation ou la cartographie de brouillons génomiques, séquençage de l'ensemble du transcriptome, séquençage métagénomique, séquençage complet de l'ARNr 16S, séquençage du génome organellaire, resequencement du génome entier et identification de variantes rares, épigénétique, etc. Ces applications diverses rendent Séquençage SMRT de PacBio un outil redoutable dans le domaine de la recherche génomique.

Assemblage de novo : La longueur de lecture longue de PacBio améliore considérablement le taux de réussite de l'assemblage des contigs, produisant des contigs longs. Il peut traverser sans effort des séquences répétitives et riches en GC. En pratique, les chercheurs utilisent généralement les séquences PacBio pour l'assemblage des contigs, puis emploient les séquences Illumina pour la correction des bases.

Typage des antigènes leucocytaires humains (HLA): Précis Typage HLA est critique dans la transplantation d'organes humains. L'HLA englobe un long fragment, et son haplotype joue un rôle crucial dans le typage et la transplantation réussis. Les praticiens médicaux tentent désormais d'utiliser les séquences PacBio comme solution pour une précision accrue. Typage HLA.

Recherche sur la méthylation : PacBio peut lire directement une variété de modifications de bases, y compris la méthylation de l'adénine et de la cytosine, ainsi que l'hydroxyméthylation de la cytosine, conférant ainsi à PacBio un avantage unique dans la recherche sur les modifications de bases.

Recherche sur l'épissage alternatif de l'ARN : Le prérequis pour analyser l'épissage alternatif de l'ARN implique une séquence à longues lectures s'étendant au-delà du site d'épissage variable de chaque côté. Les méthodologies de séquençage existantes, en raison de leurs longueurs de lecture plus courtes, ne montrent pas une grande sensibilité à l'épissage alternatif de l'ARN. Ici, PacBio comble le vide.

Détection de séquences répétées multiples : Certaines maladies résultent de la répétition de certaines séquences répétées au-delà de la plage normale, comme les jusqu'à 750 répétitions de CGG dans le syndrome de l'X fragile. Ces séquences étaient difficiles à déterminer complètement par séquençage direct dans le passé. Maintenant, les scientifiques peuvent séquencer directement ces régions en utilisant PacBio.

Références :

  1. Ye Q, Zhang S, Xie Q, et al. L'analyse du transcriptome de novo par PacBio SMRT-Seq et Illumina RNA-Seq fournit de nouvelles perspectives sur la biosynthèse des polyphénols dans le fruit d'olive chinois. Horticulture, 2024, 10(3) : 293.
  2. Kong N., Ng W., Thao K., et al. Automatisation de la préparation de bibliothèques NGS smrtbell PacBio pour le séquençage de génomes bactériens. Normes en sciences génomiques, 2017, 12(1), 27.
  3. Ye W, Xu W, Xu N, et al. Caractérisation complète du transcriptome de Grus japonensis utilisant le séquençage PacBio SMRT et Illumina. Rapports scientifiques, 2021, 11(1) : 23927.
  4. Cuber P, Chooneea D, Geeves C, et al. Comparaison de la précision et de l'efficacité des technologies de séquençage de troisième génération, Oxford Nanopore Technologies et Pacific Biosciences, pour les applications de séquençage de codes-barres ADN. Génétique et génomique écologiques, 2023, 28 : 100181.
  5. Chen Z, He X. Application de la séquençage de troisième génération dans la recherche sur le cancer. Revue médicale, 2021, 1(2) : 150-171.
  6. Le site web de PacBio.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut