Séquençage de nouvelle génération (NGS) Illumina : principes et flux de travail
Le flux de travail de séquençage de nouvelle génération (NGS) d'Illumina est un processus sophistiqué et hautement efficace qui permet aux chercheurs de percer les mystères de la génétique avec rapidité et précision. Le flux de travail sur les plateformes Illumina peut être décomposé en trois étapes principales : préparation de la bibliothèque, séquençage et analyse des données.
Principes de la technologie de séquençage Illumina
Le principe fondamental de la technologie de séquençage Illumina repose sur l'utilisation de nucléotides marqués par fluorescence qui possèdent des terminateurs réversibles. Cette approche partage le concept central de « séquençage par synthèse au fur et à mesure », semblable à la méthode de Sanger. Cependant, contrairement à Sanger, cette technique implique une terminaison temporaire de l'extension de la chaîne d'ADN après l'incorporation de chaque nucléotide modifié de manière unique. Une fois que les nucléotides ajoutés sont détectés optiquement à l'aide de marqueurs fluorescents spécifiques, les molécules de terminateurs sont clivées, permettant à la synthèse de la nouvelle chaîne de reprendre pour le tour suivant d'ajout de nucléotides.
Pour détecter simultanément l'incorporation de nucléotides dans des millions de réactions de séquençage, dATP, dCTP, dGTP et dTTP sont chacun étiquetés avec des marqueurs fluorescents distincts, permettant de différencier les nucléotides en fonction des signaux fluorescents émis. Ces étiquettes fluorescentes, ainsi que les molécules de terminateurs réversibles, sont liées aux nucléotides par les mêmes liaisons chimiques. En conséquence, après l'intégration et la détection de chaque nucléotide pendant le cycle de séquençage, à la fois les étiquettes fluorescentes et les molécules de terminateurs peuvent être clivées simultanément dans une seule réaction, préparant le terrain pour l'intégration du prochain nucléotide.
3 Principes du séquençage Solexa d'Illumina. (Choudhuri Supratim, 2014)
Comment fonctionne le séquençage Illumina ?
Les réactions de séquençage sur le système NGS d'Illumina se déroulent dans une cellule de flux. La cellule de flux contient des canaux microfluidiques, souvent appelés voies, où la réaction de séquençage a lieu et où les signaux de séquençage sont collectés par balayage.
Dans ces canaux, les surfaces supérieure et inférieure sont recouvertes d'un « gazon » de séquences d'oligonucléotides, qui complètent les composants de séquence d'ancrage à la jonction. Lorsque la bibliothèque de séquençage est introduite dans chaque canal, les modèles d'ADN au sein de la bibliothèque se lient à ces séquences d'oligonucléotides, devenant immobilisés sur la surface du canal.
Après immobilisation, chaque molécule de modèle d'ADN subit une amplification clonale via un processus appelé « amplification en pont ». Ce processus génère jusqu'à 1 000 copies identiques du modèle à proximité les unes des autres, formant des grappes de moins d'un micron de diamètre. Ces grappes servent d'unités de détection fondamentales pendant le processus de séquençage, fournissant une force de signal suffisante pour la reconnaissance des bases.
Préparation de la bibliothèque
La première étape du flux de travail NGS d'Illumina est la préparation de la bibliothèque, une étape cruciale qui garantit que les échantillons d'ADN ou d'ARN sont compatibles avec le séquenceur. Ce processus implique de fragmenter l'ADN en morceaux plus petits, suivi de l'ajout d'adaptateurs spécifiques aux extrémités, créant ainsi la bibliothèque de séquençage.
Dans le séquençage Illumina, les adaptateurs contiennent des séquences complémentaires qui permettent aux fragments d'ADN de se lier à la cellule de flux, qui est l'endroit où le processus de séquençage a lieu. Une fois les fragments liés, ils subissent une amplification et une purification. Pour optimiser les ressources, plusieurs bibliothèques peuvent être mélangées et séquencées dans la même course, un processus appelé analyse multiplex. Des index uniques à double (UDI) sont ajoutés à chaque bibliothèque lors de la ligation de jonction, servant de codes-barres pour distinguer les différentes bibliothèques lors de l'analyse des données.
UDI est particulièrement utile dans l'analyse multiplex pour réduire les incompatibilités d'échantillons dues au saut de label, en particulier dans les instruments avec des cellules de flux à motifs comme le système NovaSeq 6000. De plus, l'inclusion de codes-barres moléculaires à chaque molécule de la bibliothèque améliore la sensibilité de la détection des variants et aide à éliminer les duplications PCR et les variants à faible fréquence.
Séquençage
Lors de l'étape de séquençage du flux de travail NGS, la bibliothèque préparée est échantillonnée dans une cellule de flux et placée à l'intérieur du séquenceur. Le processus de génération de grappes amplifie des grappes de fragments d'ADN, produisant des millions de copies d'ADN simple brin. La plupart des instruments de séquençage Illumina peuvent effectuer la génération de grappes automatiquement.
Le séquençage par synthèse (SBS) est la méthode utilisée lors du processus de séquençage proprement dit. Des nucléotides chimiquement modifiés se lient à la chaîne de modèle d'ADN par complémentarité naturelle. Chaque nucléotide a un marqueur fluorescent et un terminateur réversible, empêchant l'incorporation de la base suivante. Le signal fluorescent indique le type de nucléotide ajouté, et le terminateur est ensuite clivé, permettant à la prochaine base de se lier.
Après avoir lu la chaîne d'ADN avant, la lecture est lavée et le processus est répété pour lire la chaîne inverse, ce qui en fait une méthode de séquençage à double sens.
Analyse des données
À la fin du séquençage, le logiciel de l'instrument effectue la détection des bases, identifiant les nucléotides présents (appelée analyse primaire) et prédisant la précision de cette détection des bases. Les données de séquençage générées peuvent ensuite être importées dans des outils d'analyse standard pour un traitement ultérieur ou des pipelines d'analyse personnalisés peuvent être créés (appelée analyse secondaire). Les chercheurs utilisent souvent des applications d'analyse de données intuitives (analyse tertiaire) pour interpréter et extraire des informations significatives des données NGS. L'analyse des données est une phase critique car elle permet aux chercheurs d'identifier des variations génétiques, des mutations et des réarrangements structurels au sein du génome, conduisant à d'importantes découvertes dans des domaines tels que la génomique des maladies, la médecine personnalisée et l'agriculture.
Référence :
- Choudhuri, Supratim. Bioinformatique pour les débutants : gènes, génomes, évolution moléculaire, bases de données et outils analytiques. Elsevier, 2014.