Le principal avantage de Séquençage Illumina son débit élevé, qui permet une opération à grande échelle à faible coût. Grâce à son volume élevé et à son rapport coût-efficacité, il peut répondre à la plupart des besoins de séquençage et a marqué le début de l'ère du séquençage à haut débit. Le séquençage Illumina a un large éventail d'applications. Initialement utilisé dans l'assemblage de génomes, il a ensuite été élargi à la détection de variations, Séquençage de l'ARNséquençage unicellulaire, dépistage prénatal, détection de tumeurs et d'autres domaines.
Néanmoins, Séquençage Illumina présente un déficit significatif : sa longueur de lecture est relativement courte. Passant d'une longueur initiale de 35 pb, elle a progressivement augmenté à 75 pb, 90 pb, et actuellement la plus longue disponible, 2x300 pb. Malgré cela, sa longueur de lecture reste quelque peu courte. Cette inadéquation peut compliquer le traitement des séquences répétées et pose des défis pour l'assemblage du génome, la détection des variations de grands fragments, et recherche sur le transcriptome completLes limitations inhérentes à la technologie Illumina contraignent toute extension supplémentaire de la longueur de lecture, ce qui, dans une certaine mesure, freine son évolution.
Le principe de base derrière le séquençage par l'analyseur de génome Illumina/Solexa est la 'synthèse par séquençage'. Au cours du processus de synthèse de la chaîne complémentaire par l'ADN polymérase, quatre dNTP colorés différents sont ajoutés de manière consécutive. L'ajout de chaque type de dNTP produit un signal fluorescent spécifique. Ce signal est capturé et traité par un logiciel informatique spécialisé, aboutissant finalement aux données d'ADN séquencées.
Le flux de travail de Séquençage Illumina peut être largement divisé en quatre étapes :
Construction de bibliothèque
Génération de clusters
Séquençage
Reconnaissance de base
Service qui pourrait vous intéresser
Pour commencer, le concept de « bibliothèque » doit être élucidé. Dans ce contexte, une bibliothèque désigne une compilation de fragments d'ADN. Dans le processus de construction de la bibliothèque, les fragments de séquence subissent une fragmentation, aboutissant à la formation d'une bibliothèque d'ADN.
En termes simples, cela implique de perturber des molécules d'ADN désordonnées de manière aléatoire en utilisant des techniques telles que la sonication, pour les réduire en fragments plus petits d'une certaine longueur. Des adaptateurs uniques sont ensuite ajoutés à chaque extrémité de ces segments minuscules, ce qui permet de construire des bibliothèques d'ADN à brin simple. Ces bibliothèques sont préparées et conservées pour les processus de séquençage ultérieurs.
La première étape de la construction de la bibliothèque consiste en la fragmentation aléatoire des échantillons d'ADN. À ce stade, ces échantillons d'ADN se composent principalement de fragments plus longs, par exemple, des segments dans la plage de 100-300K. Grâce à la fragmentation aléatoire, ces morceaux plus grands sont décomposés en fragments plus courts. Nous disposons de diverses méthodes pour la fragmentation de l'ADN, y compris la rupture mécanique, l'ultrasonication et la digestion enzymatique, entre autres.
La longueur des fragments peut être prédéterminée ; par exemple, si nous fixons la longueur des fragments à 500 paires de bases (pb), ces morceaux plus grands seront finalement découpés en de nombreux fragments courts de 500 pb, construisant ainsi une bibliothèque de 500 pb. D'autres longueurs peuvent également être sélectionnées, telles que les bibliothèques largement utilisées de 170 pb et 350 pb, ainsi que des longueurs plus longues, y compris 500 pb, 800 pb, 2k, 5k, 6k, etc. En général, les bibliothèques de taille inférieure à 1000 pb sont appelées bibliothèques de fragments courts, tandis que celles de taille supérieure sont qualifiées de bibliothèques de fragments longs.
Il est crucial de noter que, lorsqu'on fait référence à une bibliothèque de 500 pb, 500 pb ne sert que de valeur de pic, indiquant que la majorité des longueurs de fragments approchent 500 pb. En effet, tous les fragments ne mesurent pas précisément 500 pb ; il peut y avoir des segments de longueurs variées, comme 300 pb ou 800 pb. Après fragmentation, les fragments dans une certaine plage peuvent être récupérés par le processus d'électrophorèse. Pour une bibliothèque de 500 pb, les fragments entre 300 et 800 pb peuvent être récupérés. La taille de cette bibliothèque — ou la taille de l'insertion — est d'une importance monumentale et jouera un rôle significatif dans les processus ultérieurs d'assemblage de séquences et d'alignement de lectures courtes. Une fois qu'une bibliothèque d'ADN appropriée est récupérée, une série de procédures subséquentes doit être effectuée.
Tout d'abord, nous ajoutons une base d'adénine (A) à l'extrémité 3' de la séquence. Cette conversion d'une extrémité franche à une extrémité collante facilite la connexion aux amorces et adaptateurs suivants. Après l'ajout de la base d'adénine, des amorces de séquençage sont intégrées. Ensuite, une étiquette d'index est introduite, un fragment de 6 à 8 pb, utilisé pour distinguer différents échantillons de séquençage. Étant donné la quantité massive de données générées par les technologies de séquençage à haut débit, comme 30 Go de données provenant d'un seul couloir, alors que le séquençage d'un génome bactérien peut ne nécessiter que 1 Go de données, il est possible de mélanger de l'ADN provenant de différentes espèces au cours d'un même processus de séquençage. Par conséquent, nous devons ajouter des étiquettes d'index uniques pour établir une distinction entre les échantillons mélangés, qu'il s'agisse d'ADN animal, végétal ou microbien, pour un partitionnement ultérieur des données.
Après l'ajout des index, les terminaisons d'adaptateur sont incorporées. Les terminaisons d'adaptateur se composent des terminaisons P7 et P5, qui sont respectivement intégrées aux deux extrémités de la séquence. Ces terminaisons P7 et P5 s'apparient de manière complémentaire avec les terminaisons sur la puce de séquençage. Ayant subi les procédures ci-dessus, l'échantillon peut maintenant être chargé sur la puce de séquençage.
Après la construction de la bibliothèque, la génération de clusters est réalisée – une étape cruciale dans le processus de séquençage. Le terme 'cluster' fait référence au processus d'amplification de chaque fragment d'ADN. L'objectif de l'amplification est de renforcer le signal. Pendant le processus de séquençage, il est nécessaire d'exciter les groupes fluorescents des bases et de capturer les signaux fluorescents correspondants. Avec un seul groupe fluorescent, son signal serait extrêmement faible. Par conséquent, grâce au processus d'enrichissement, la séquence unique d'origine est amplifiée en un cluster, permettant ainsi une amplification du signal. Un seul signal fluorescent est faible et difficile à distinguer en termes de couleur, mais lorsqu'il est regroupé dans un cluster, l'intensité du signal augmente considérablement, rendant les couleurs de fluorescence plus faciles à discerner.
Le processus de génération de clusters se déroule sur une puce de flowcell. La flowcell est un conduit pour absorber des fragments d'ADN en mouvement et sert de conteneur principal pour les réactions de séquençage, toutes les étapes de séquençage ayant lieu ici. Lorsque la bibliothèque est préparée, l'ADN peut adhérer de manière aléatoire aux voies de la surface de la flowcell.
flowcell de séquençage Illumina (Source de l'image : Illumina)
Dans une cellule de flux donnée, il existe huit canaux individuels, appelés ici huit « voies ». Chaque voie contient deux surfaces chimiquement modifiées—à la fois en haut et en bas—abondamment ensemencées avec des amorces, spécifiquement les amorces P7 et P5, qui s'apparient précisément avec les adaptateurs de la bibliothèque. La raison pour laquelle l'ADN est déposé sur une puce pour le séquençage découle du mouvement constant des fluides qui se produit pendant le processus de séquençage. Tout ADN qui ne parvient pas à se lier à l'adaptateur est susceptible de se détacher en raison du flux de fluide.
Chaque surface est divisée en trois « bandes », chaque bande contenant 16 « tuiles », qui se réfèrent à de petites régions. Ainsi, une seule voie contient 48 tuiles (3 bandes multipliées par 16 tuiles), ce qui porte le total des deux surfaces à 96 tuiles. Un flux complet de cellule, par conséquent, englobe 768 tuiles (96 tuiles multipliées par 8 voies). À mesure que la puce se remplit d'adaptateurs de séquençage, la capacité en ADN augmente, entraînant une augmentation correspondante du volume de données de séquençage. En injectant des échantillons avec des adaptateurs de primer ajoutés dans la cellule de flux, la bibliothèque est correctement implantée sur la puce.
Dans cette étape, nous procédons à l'amplification PCR en pont. Pour commencer, la bibliothèque est implantée sur la cellule de flux. Au cours de ce processus, une méthode de PCR en pont est appliquée, qui présente certaines distinctions par rapport à la PCR conventionnelle. Dans les réactions de PCR en pont, les amorces sens et antisens sont toutes deux ancrées à un adaptateur flexible attaché au support solide (substrat solide). Après la réaction PCR, tous les produits d'amplification des modèles sont immobilisés à des emplacements spécifiques sur la puce. Comme les jonctions aux deux extrémités de la bibliothèque complètent la séquence de jonction basée sur la puce, lors de l'injection des échantillons dans la cellule de flux, une hybridation de complémentarité se produit, ancrant la séquence de la bibliothèque à la puce.
Les dNTP et la polymérase sont ensuite ajoutés. La synthèse d'une séquence novatrice à partir de l'amorce le long du modèle, complémentaire à la séquence originale, est facilitée par l'enzyme. Lors de l'ajout d'une solution concentrée d'hydroxyde de sodium, la double hélice d'ADN se déroule en deux brins simples. Tandis qu'un brin se combine avec l'adaptateur, l'autre brin ne le fait pas et est éliminé lorsque le fluide passe. Des solvants neutres et des solutions neutralisantes sont ensuite ajoutés, provoquant la flexion de l'ADN simple brin sur la plaque à une extrémité et l'hybridation complémentaire avec une autre amorce sur la puce.
Nous continuons l'ajout de la polymérase et des dNTP, facilitant les réactions PCR et la synthèse d'un nouveau brin. Ce processus entier est répété avec l'ajout d'une solution alcaline et d'une solution neutralisante pour assurer l'hybridation avec un nouvel adaptateur. Ce qui était à l'origine un brin simple est maintenant devenu double brin en raison de l'amplification. Avec plusieurs cycles d'amplification, la quantité d'ADN suit une croissance exponentielle, le brin original devenant finalement un groupe de séquences identiques, semblable à un processus de clonage. Ce phénomène est appelé Bridge PCR, où un adaptateur à l'extrémité de l'ADN s'hybride avec un adaptateur sur la puce, formant un 'pont' courbé. Un seul cycle d'amplification PCR se produit sur ce 'pont'.
Schéma montrant le concept de la PCR en pont et de la formation de clusters. (Sandeep Ameta 2013)
Une fois la génération de clusters terminée, le séquençage peut commencer, en utilisant le Séquençage Illumina principe technologique de séquençage par synthèse concurrente. Le système de réaction est simultanément infusé avec de l'ADN polymérase, des amorces d'adaptateur et quatre types de dNTP fluorescents (similaire au séquençage de Sanger). Le groupe 3'-OH de ces dNTP est chimiquement protégé, garantissant qu'un seul dNTP peut être incorporé à la fois, ainsi, une seule base est ajoutée à chaque étape de séquençage.
Après qu'un dNTP a été ajouté à la chaîne de synthèse, les dNTPs libres non utilisés et l'ADN polymérase sont rincés. Ensuite, un tampon est ajouté pour induire la fluorescence, qui est excitée par la lumière laser et enregistrée à l'aide d'un appareil optique. Enfin, une analyse informatique convertit le signal optique en une base de séquençage.
Après l'enregistrement de la fluorescence, un réactif chimique est introduit pour éteindre le signal fluorescent et enlever le groupe protecteur du 3'-OH du dNTP, préparant ainsi le terrain pour le prochain cycle de réactions de séquençage. Ce processus améliore la qualité du séquençage, augmente le rendement des données et garantit la précision.
À l'issue d'un cycle de séquençage, le groupe fluorescent et le groupe de blocage au 3' sont excisés. Cette étape vise à éliminer ces groupes, permettant ainsi la poursuite des réactions de synthèse, une caractéristique unique de la technologie de blocage par terminateur réversible. Par la suite, de nouveaux dNTP et des enzymes de synthèse sont ajoutés dans le but de construire de nouveaux nucléotides. Après exposition à une lumière stimulée, les signaux fluorescents sont capturés et analysés, permettant ainsi d'identifier le deuxième nucléotide. Ce processus est continuellement répété, entraînant un nombre croissant de nucléotides séquencés et prolongeant ainsi la longueur de la séquence. Le séquençage se poursuit jusqu'à la terminaison et les résultats du séquençage en simple brin sont ensuite présentés.
Séquençage Illumina La technologie adopte le séquençage en paires d'extrémités, où les brins avant et arrière subissent un processus de séquençage. Tout d'abord, une synthèse est réalisée, conduisant à la création d'un brin double - à savoir, le brin complémentaire du brin de séquençage original. Le brin original est ensuite excisé à l'aide de réactifs chimiques, ne laissant derrière que le brin complémentaire. Sur la base de cette configuration, le processus de séquençage se poursuit. De même, une méthode de synthèse et de séquençage simultanés est utilisée, où la synthèse des nucléotides, l'excitation des groupes fluorescents, la capture des signaux fluorescents et l'excision du groupe fluorescent plus du groupe de blocage à 3' se produisent. Après ce processus, le prochain cycle de séquençage par synthèse est réalisé. Ce cycle se poursuit jusqu'à ce que toutes les tâches de séquençage soient complétées.
Séquençage Illumina par synthèse (SBS) (Syahzuwan Hassan) et al.,. 2023)
En ce qui concerne la nature distincte de Séquençage Illumina la technologie, elle ajoute de manière unique un seul dNTP à la fois. Elle résout efficacement le défi de la mesure des longueurs des homopolymères. Ses principales erreurs de séquençage proviennent des substitutions de bases, avec des taux d'erreur actuels variant d'environ 1 % à 1,5 %. Pour donner un exemple concret, pour le resequencement du génome humain, la série Hisq avec une profondeur de séquençage de 30x à 50x nécessiterait entre 3 et 5 jours. En comparaison, la série NovaSeq récemment introduite nécessiterait seulement environ 40 heures.
Comparaison du volume de séquençage Illumina
| Séquenceur | Sortie de données totale par séquençage | Nombre de lectures (milliards) | Longueur de lecture de séquençage (pb) | Temps de séquençage |
| HiSeq 2500 | 720-800 Go | 8,0 | PE 100 | 5 jours |
| HiSeq 4000 | 1 500 Go | 10,0 | PE 150 | 3,5 jours |
| NovaSeq 5000 | 850-1 000 Go | 2,8-3,3 | PE 150 | 1,7 jours |
| NovaSeq 6000 | 3 000 Go | 10,0 | PE 150 | 1,7 jours |
Selon les estimations du volume de données, un séquenceur NovaSeq6000 (S4) fonctionnant à pleine capacité peut réaliser le séquençage de plus de 6400 individus par an. Il est à noter que les données publiées par Illumina sont généralement conservatrices. Dans la pratique, nous avons constaté que la proportion de segments de lecture de haute qualité (Q30) dépasse 90 % du total des données, ce qui est nettement supérieur aux 75 % annoncés officiellement. Par conséquent, le rendement total de données réel est également plus élevé que prévu.
Suite à l'achèvement du séquençage, nous obtenons une multitude de fichiers de signal de fluorescence, plutôt que des séquences IMMEDIATES de bases d'adénine (A), de thymine (T), de cytosine (C) et de guanine (G). Ces fichiers doivent subir un traitement d'image, les transformant en fichiers de spots codés par couleur, qui sont ensuite stockés au format bcl. Le processus d'extraction de ces fichiers bcl pour récupérer les bases est appelé basecalling. Chaque fichier de spots documente un ensemble d'informations, y compris le numéro de voie, le numéro de tuile, les positions des coordonnées x et y des spots, et l'intensité lumineuse de chaque cycle A, T, C et G. Cependant, les fichiers bcl sont au format binaire, qui ne correspond pas au fichier texte au format fastq dont nous avons finalement besoin. Par conséquent, il est nécessaire d'utiliser un logiciel de conversion bcl2fastq pour transformer correctement les fichiers bcl.
Chaque image correspond à une photo capturée lors d'un séquençage. Nous pouvons facilement différencier le rouge, le jaune, le vert et le bleu, chaque couleur représentant un type de base différent. L'image du deuxième séquençage lit la deuxième base, toujours depuis le même emplacement exact. Lire depuis la même position lors de chaque séquençage aboutit à la construction d'une séquence. Essentiellement, ce processus consiste à assembler des images adjacentes et à extraire des groupes de bases du même emplacement, établissant ainsi une séquence.
La description mentionnée ci-dessus pour déterminer le type de base en fonction de la couleur de l'image n'est qu'une simplification. La situation réelle est beaucoup plus complexe. Parmi les quatre bases, les purines et les pyrimidines ont des structures chimiques similaires, et les longueurs d'onde des quatre groupes de bases fluorescentes se chevauchent. Par conséquent, le type de base ne peut pas être discerné immédiatement par la couleur seule, surtout dans des circonstances non groupées, où les jugements sont encore plus difficiles.
En fait, le séquenceur détermine l'identification en analysant le taux de contribution des quatre matériaux fluorescents à quatre longueurs d'onde différentes. Par exemple, comme le montre le tableau, les taux de contribution des quatre matériaux fluorescents aux quatre longueurs d'onde sont distincts, formant une matrice de taux de contribution quaternionnelle à quatre dimensions. Ainsi, lors de l'identification de chaque point d'illumination, cela revient à résoudre un ensemble d'équations linéaires quaternaires. L'identification de cette base correspondant au point illuminé se fait en choisissant celle avec la probabilité la plus élevée. Ce processus complexe peut être exécuté automatiquement via le logiciel intégré du séquenceur. En fin de compte, le fichier de séquence fastq généré est les données de séquençage souhaitées.
Q : Dans la réalisation d'expériences répétitives, pourquoi opter pour l'ajout répétitif d'hydroxyde de sodium et des solutions neutres plutôt que d'utiliser directement le principe de fonctionnement à température variable des machines PCR ?
A : L'ajout répétitif d'hydroxyde de sodium et de solutions neutres a pour but d'éliminer et de récupérer des fragments d'ADN, ce qui aide à la préparation des échantillons pour le séquençage. Cela est principalement dû au fait que la technologie de séquençage Illumina utilise la technique de "Bridge PCR" plutôt que la PCR en phase liquide traditionnelle. La Bridge PCR est une opération cruciale dans le processus de séquençage Illumina, impliquant la fixation des produits de PCR sur la surface de la puce de séquençage pour former des "ponts" d'ADN, qui subissent ensuite des réactions de séquençage. La Bridge PCR nécessite une quantité substantielle de fragments d'ADN fixés à la surface, contrairement à l'amplification de l'ADN en phase liquide. Par conséquent, l'utilisation directe du principe de PCR en phase liquide des machines PCR ne permet pas de faciliter cette fixation des fragments d'ADN sur la surface de la puce.
Q : Les séquences groupées sont-elles identiques ? Et que se passe-t-il si plus d'un fragment d'ADN se lie avant l'amplification ?
A : En général, dans une séquence de clusters, chaque fragment d'ADN partage la même séquence. Néanmoins, lors du séquençage, il peut y avoir des cas où plus d'un fragment d'ADN se lie initialement, un phénomène appelé "chevauchement de clusters" ou "coalescence de clusters". Le chevauchement de clusters peut survenir lors de la création de bibliothèques d'ADN ou des processus d'amplification PCR où certains fragments d'ADN se regroupent et sont immobilisés sur la surface de la puce au sein du même cluster de séquence.
Le chevauchement des clusters peut potentiellement provoquer des problèmes avec les données de séquençage telles que :
Signaux superposés : Pendant le séquençage, la présence de plus d'un fragment d'ADN dans un seul cluster de séquence peut entraîner des signaux chevauchants, ce qui peut interférer avec les résultats du séquençage.
Données de faible qualité : Si une abondance de fragments d'ADN est présente au sein d'un unique cluster de séquences, cela pourrait réduire le taux de séquençage effectif pour chaque fragment, entravant ainsi la qualité des données.
Pour minimiser le chevauchement des clusters, des mesures de contrôle concernant la concentration et la quantité de fragments sont souvent appliquées lors de la création de la bibliothèque d'ADN et des processus d'amplification PCR, garantissant qu'un seul fragment d'ADN se lie à chaque cluster de séquence. De plus, la plateforme de séquençage Illumina recourt à une série d'algorithmes de traitement d'image et d'analyse de données pour éliminer ou corriger les signaux d'interférence causés par le chevauchement des clusters, améliorant ainsi la qualité et la précision des données.
Q : Dans le séquençage Illumina, tous les fragments d'ADN au sein d'un cluster produisent-ils des signaux fluorescents identiques ? Lors du séquençage, y a-t-il une possibilité qu'un brin soit encore coloré en jaune tandis qu'un brin adjacent a terminé la coloration jaune et a commencé à passer au bleu ?
A : En général, tous les fragments d'ADN au sein d'un même cluster produisent des signaux fluorescents homogènes lors d'une course de séquençage Illumina. En ce qui concerne le rythme de ce processus, il est essentiel de noter que le séquençage se déroule généralement simultanément ou à un rythme très similaire entre les brins. Par conséquent, les situations où un brin d'ADN prend du retard dans la coloration tandis qu'un autre brin a progressé vers une base nucléotidique différente sont peu probables.
Cependant, ce n'est pas un scénario absolu. Des complications pratiques peuvent entraîner des erreurs de séquençage ou des signaux parasites. De plus, la fiabilité du séquençage peut se dégrader avec le temps : des non-uniformités de vitesse peuvent se développer, dégradant davantage la qualité du séquençage en aval des fragments. Pour contrer ce problème, nous utilisons une approche de séquençage en paires (ou à double extrémité). Cette méthode améliore la résolution des séquences, en particulier pour les séquences à long tirage, garantissant une compréhension plus nuancée du processus.
Q : Pourquoi le nombre de cycles est-il fixé en fonction de la longueur des lectures ?
A : Au cours du processus de séquençage, les échantillons d'ADN sont soumis à une amplification enzymatique et à des réactions de séquençage ultérieures. Pour atteindre la longueur de lecture requise, un nombre approprié de cycles d'amplification et de séquençage doit être effectué afin de s'assurer que nous avons couvert un nombre adéquat de paires de bases. Par conséquent, nous considérons que le nombre de cycles est intimement lié à l'exigence de longueur de lecture. En d'autres termes, si une lecture d'une longueur spécifique est requise, le séquenceur ajuste le nombre de cycles pour atteindre cet objectif de longueur de lecture. Ainsi, le nombre de cycles est un paramètre défini pour répondre à l'exigence de longueur de lecture.
Q : Pourquoi est-il nécessaire d'utiliser le séquençage en paires ?
A : Dans le séquençage en paires, une extrémité du fragment d'ADN est d'abord séquencée, suivie d'un séquençage secondaire de l'autre extrémité, ce qui donne lieu à deux ensembles distincts de données de séquençage. Il convient de noter qu'à mesure que le processus de séquençage avance, la qualité du séquençage tend à se détériorer. Par exemple, vers la phase en aval du séquençage à une seule extrémité, la qualité est souvent inférieure à la précision souhaitée. La mise en œuvre du séquençage en paires permet le séquençage simultané des deux extrémités d'un fragment d'ADN, garantissant une qualité de séquençage nettement supérieure à l'extrémité en amont. Cela, associé à l'assemblage des deux sorties de séquençage, améliore considérablement la qualité globale du séquençage, prolongeant ainsi la longueur effective de la lecture de séquençage.