Séquençage de Sanger, en tant que technologie mature et largement utilisée Séquençage de l'ADN La technologie est une base importante pour obtenir des informations génétiques dans la recherche en biologie moléculaire, le diagnostic clinique et d'autres domaines. Les résultats du séquençage de Sanger sont généralement présentés sous deux formes : la carte d'électrophorèse (c'est-à-dire la carte des pics de séquençage) et la séquence de bases correspondante, dans laquelle la carte des pics montre directement la séparation des différentes bases dans le processus de séquençage, tandis que la séquence de bases est une interprétation directe de la carte des pics.
Cette forme de présentation des résultats a les caractéristiques de base d'une haute résolution à un seul nucléotide et d'une grande précision, et peut refléter l'information des bases de chaque position dans les fragments d'ADN. Cependant, pour de nombreux chercheurs et cliniciens, il n'est pas facile d'interpréter les résultats du séquençage Sanger. En pratique, ils peuvent rencontrer des problèmes tels que des motifs de pics chaotiques, des motifs de pics anormaux et des difficultés d'identification des bases, en particulier face aux mutations, insertions, délétions et autres variations. Juger et analyser avec précision ces informations constitue un grand défi. De plus, combiner les résultats de séquençage avec les objectifs de recherche et les appliquer raisonnablement à la conception expérimentale et à la dérivation des conclusions nécessite également une riche expérience et des connaissances professionnelles.
Cet article développe les formes de présentation, les indicateurs d'évaluation de la qualité, les méthodes d'analyse des données et les applications des résultats de séquençage Sanger, dans le but d'aider les chercheurs à interpréter et à appliquer ces résultats de manière précise.
Les résultats du séquençage Sanger sont principalement présentés sous deux formes : la carte des pics d'électrophorèse et la séquence de bases. Les pics de différentes couleurs dans le diagramme des pics correspondent aux bases A, T, C et G, et la clarté et la hauteur des pics reflètent la qualité du signal. La séquence de bases est convertie à partir de la carte des pics avec la valeur de masse attachée. Elle se caractérise par une haute résolution à base unique et peut afficher les détails de la séquence de manière intuitive, mais elle présente également des problèmes de limitation de longueur de lecture et d'atténuation du signal terminal.
La carte d'électrophorèse du séquençage de Sanger est générée en séparant des fragments d'ADN de différentes longueurs par la technologie d'électrophorèse capillaire. Dans la carte, l'axe horizontal représente la position de la base (c'est-à-dire la longueur du séquençage) et l'axe vertical représente l'intensité du signal de fluorescence. Pendant l'électrophorèse, les didéoxynucléotides (ddNTP) avec différentes étiquettes fluorescentes seront reconnus par le détecteur lors de la migration des fragments d'ADN. Différentes bases correspondent à différentes couleurs fluorescentes : l'adénine (A) est verte, la cytosine (C) est bleue, la guanine (G) est noire ou jaune, et la thymine (T) est rouge.
La signification du pic est au cœur de la lecture de l'atlas. Chaque pic clair et net représente l'apparition d'une base spécifique à cette position, et la hauteur du pic est liée à l'intensité du signal de la base. Plus l'intensité du signal est élevée, plus le type de pic est abrupt, indiquant que la réaction de séquençage a une haute efficacité d'extension et une bonne spécificité à cette position. L'agencement continu des motifs de pics forme une séquence d'ADN complète, et la couleur et la position du pic peuvent être identifiées par un logiciel, ce qui peut être directement converti en la séquence de bases correspondante.
Carte de séquençage Sanger (Li et al., 2022)
Afin d'évaluer objectivement la fiabilité des résultats du séquençage Sanger, les chercheurs ont introduit une série d'indicateurs d'évaluation de la qualité, parmi lesquels les plus couramment utilisés sont la fraction de masse Phred et la profondeur de séquençage.
La fraction de masse (valeur Q) de Phred est un indice important pour mesurer la précision de la reconnaissance des bases uniques, et sa formule de calcul est Q = -10log10 (P), où P est la probabilité d'erreur de reconnaissance de base. Par exemple, Q20 signifie que la probabilité d'erreur de cette base est de 1 %, et Q30 signifie que la probabilité d'erreur est de 0,1 %. Dans l'application pratique, il est généralement requis que la proportion de bases au-dessus de Q20 soit supérieure à 90 % et celle des bases au-dessus de Q30 soit supérieure à 80 % dans les résultats de séquençage pour garantir l'exactitude des données de séquençage. Grâce à des logiciels d'analyse de séquençage professionnels (tels que Sequencher, BioEdit, etc.), la fraction de masse Phred de chaque base peut être consultée, ce qui aide les chercheurs à juger de la crédibilité des résultats de séquençage dans différentes régions.
La profondeur de séquençage fait généralement référence au nombre de fois qu'un même fragment d'ADN est séquencé dans le séquençage Sanger. Contrairement au séquençage à haut débit, la profondeur de séquençage du séquençage Sanger est généralement faible (habituellement 1 à 2 fois), mais en raison de sa grande précision, un seul résultat de séquençage peut répondre à la plupart des exigences expérimentales. Dans certaines situations nécessitant une grande précision des résultats (comme la confirmation de mutations dans le diagnostic clinique), le même modèle est généralement séquencé dans deux directions (avant et arrière) ou de manière répétée pour améliorer la fiabilité des résultats. Les résultats du séquençage bidirectionnel peuvent se vérifier mutuellement, réduire les erreurs possibles causées par le séquençage unidirectionnel et sont particulièrement adaptés à la détection des variations dans de longs fragments d'ADN.
De plus, la longueur de lecture des résultats de séquençage est également un indice d'évaluation important. La longueur de lecture moyenne du séquençage Sanger est généralement de 500 à 800 bases, et la longueur de lecture des résultats de séquençage de haute qualité peut atteindre plus de 1000 bases. La longueur de lecture influencera la couverture des longs fragments d'ADN. Lors de la conception d'expériences de séquençage, il est nécessaire d'organiser les stratégies de séquençage de manière raisonnable en fonction de la longueur des fragments cibles pour garantir que l'ensemble de la zone cible puisse être couvert.
Séquençage Sanger vs séquençage de nouvelle génération (NGS) (Botella et al., 2015)
Le séquençage de Sanger est une technologie de séquençage génétique de haute précision, et son analyse de données est le lien clé pour l'extraction d'informations génétiques. Ce processus doit s'appuyer sur des outils professionnels pour analyser les pics d'électrophorèse, identifier les séquences de bases, évaluer la fiabilité en combinant des indicateurs d'évaluation de la qualité, détecter avec précision des anomalies telles que les bimodales et les mutations, et révéler la variation génétique en les comparant avec des séquences de référence, fournissant ainsi une base essentielle pour la recherche scientifique et les applications cliniques.
L'analyse des résultats de séquençage Sanger nécessite l'aide d'outils logiciels professionnels, qui peuvent aider les chercheurs à identifier rapidement les séquences de bases, évaluer la qualité des séquences, comparer les séquences de référence et détecter les variations. Ce qui suit présente plusieurs outils logiciels couramment utilisés et leurs principales fonctions.
FinchTV est un logiciel gratuit et facile à utiliser pour visualiser les résultats de séquençage, qui prend en charge divers formats de fichiers de séquençage (tels que .ab1, .scf, etc.). Ses principales fonctions incluent l'affichage de l'électrophorégramme, de la séquence de bases et de la fraction de masse Phred correspondante. Les utilisateurs peuvent observer directement les changements de motif de pic en agrandissant les détails de l'électrophorégramme et corriger manuellement les bases incorrectes automatiquement identifiées par le logiciel. De plus, FinchTV propose également une fonction de comparaison de séquences, qui permet de comparer simplement les résultats de séquençage avec des séquences de référence et de juger préliminairement s'il y a des variations.
Chromas est un autre logiciel d'analyse de séquençage largement utilisé, qui est plus puissant. En plus des fonctions de base de FinchTV, il prend également en charge l'édition de séquences, la génération de séquences complémentaires inverses, l'analyse des sites de restriction, et ainsi de suite.
Pour les chercheurs qui doivent effectuer des analyses de séquences à grande échelle ou des détections de mutations complexes, des logiciels avancés tels que Sequencher et BioEdit peuvent être sélectionnés. Ces logiciels prennent en charge l'alignement de séquences multiples, la détection automatique de mutations, le collage de séquences chevauchantes et d'autres fonctions, et sont adaptés à des scénarios de recherche tels que la vérification de clonage de gènes et le dépistage de mutations.
L'interface utilisateur de SeqTrace, y compris la fenêtre de projet (A) et la fenêtre de visualisation des traces (B) (Stucky et al., 2012)
Services qui pourraient vous intéresser
En savoir plus
Dans les résultats de séquençage Sanger, il y a souvent des pics anormaux, tels que des pics doubles, des pics de suppression, des pics de bruit, etc. Ces problèmes affecteront l'identification précise des séquences de bases et doivent être correctement identifiés et traités.
Bimodal fait référence à deux pics très similaires à la même position de base, qui sont généralement causés par une pollution de l'échantillon, des échantillons hétérozygotes ou une amplification non spécifique lors du séquençage.
A-N Les principaux problèmes rencontrés dans la lecture des chromatogrammes d'ADN des produits de PCR basés sur la méthode de séquençage de Sanger (Al-Shuhaib et al., 2023)
Comparer les résultats de séquençage avec la séquence de référence est l'étape clé pour analyser les données de séquençage. Des types de mutations tels que les mutations, les insertions et les délétions peuvent être détectés par comparaison, ce qui fournit une base pour les recherches ultérieures.
Tout d'abord, il est nécessaire d'obtenir la séquence de référence du gène ou du fragment cible, qui peut être téléchargée à partir de bases de données publiques telles que GenBank. Ensuite, un logiciel de comparaison de séquences (tel que BLAST, ClustalW, MegAlign, etc.) est utilisé pour comparer la séquence séquencée avec la séquence de référence. Les résultats de l'alignement sont généralement affichés sous la forme d'un alignement de séquences, dans lequel les mêmes bases sont représentées par les mêmes caractères, les bases différentes sont marquées par des caractères différents, et les bases insérées ou manquantes sont représentées par des lignes horizontales ou d'autres symboles.
Dans la détection de mutations, la mutation ponctuelle est le type de mutation le plus courant, ce qui montre qu'une base dans la séquence de séquençage est différente de la séquence de référence. Par exemple, si la base dans la séquence de référence est "A" et que la position correspondante dans la séquence de séquençage est "G", cela indique qu'il y a une mutation ponctuelle avec G>A à cette position. En examinant le type de pic et la fraction de masse Phred de cette position, nous pouvons confirmer la fiabilité de la mutation et éviter les résultats faussement positifs causés par des erreurs de séquençage.
Comparaison des différents processus de la méthode Sanger et du NGS dans la détection de différents pathogènes (Nafea et al., 2023)
Le séquençage de Sanger est devenu la pierre angulaire de la recherche en biologie moléculaire grâce à sa grande précision, et ses résultats ont des applications irremplaçables dans de nombreux domaines. De la vérification du clonage de gènes pour garantir l'insertion correcte des fragments, au diagnostic et au traitement des maladies par détection de mutations, en passant par l'étude de la fonction des gènes pour révéler le mécanisme d'action des gènes, l'interprétation précise des résultats de séquençage est la clé pour promouvoir la recherche scientifique et le progrès clinique.
Dans la recherche en génie génétique, il est nécessaire de vérifier la justesse du fragment inséré par séquençage Sanger après la construction du plasmide recombinant. L'équipe de recherche a inséré un gène cible dans le vecteur pET-28a pour construire un plasmide d'expression recombinant. Après le séquençage du plasmide recombinant, les résultats de séquençage ont été comparés à la séquence de référence et à la séquence du vecteur du gène cible. Il a été constaté que la séquence du fragment inséré était complètement conforme au gène cible, et que la direction de l'insertion était correcte, sans mutation ni délétion de bases, ce qui indiquait que le plasmide recombinant avait été construit avec succès et pouvait être utilisé pour des expériences d'expression protéique ultérieures.
Chromatogramme de séquence (A) et évaluation de la qualité de la séquence (B) de la souche clinique Staphylococcus aureus 1 (Chen et al., 2014)
Dans le diagnostic clinique, le séquençage de Sanger est souvent utilisé pour détecter des mutations génétiques liées à des maladies. Lors de la détection de mutations du gène EGFR dans des échantillons de tissu tumoral de patients suspectés d'avoir un cancer du poumon, une mutation de délétion de l'exon 19 a été trouvée dans les échantillons des patients en séquençant les régions de mutations chaudes du gène EGFR. En combinant cela avec les symptômes cliniques et d'autres résultats d'examen du patient, il peut être déterminé que le patient est adapté à un traitement par des inhibiteurs de la tyrosine kinase EGFR.
Dans l'étude de la fonction des gènes, le séquençage Sanger peut être utilisé pour vérifier l'effet des expériences de knock-out ou de knock-in des gènes. Les chercheurs ont utilisé la technologie CRISPR-Cas9 pour éliminer un gène chez des souris, ont amplifié la région cible du gène par PCR et l'ont séquencée. Si les résultats du séquençage montrent qu'il y a une mutation de délétion ou d'insertion attendue dans la région cible du gène, et que la mutation provoque un décalage du cadre de lecture du gène, cela indique que le knock-out du gène est réussi. Par la suite, la fonction biologique du gène peut être étudiée en observant les changements phénotypiques des souris knock-out.
Courbes d'amplification (A) et courbes de fusion (B) des souches expérimentales partielles (Chen et al., 2014)
L'interprétation et l'analyse correctes des résultats de séquençage Sanger sont essentielles pour tirer pleinement parti des avantages de cette technologie, qui concerne non seulement la fiabilité des résultats expérimentaux, mais affecte également la formulation des orientations de recherche ultérieures et l'exactitude des conclusions de la recherche scientifique. En maîtrisant la forme de présentation, les indices d'évaluation de la qualité et la méthode d'analyse des données des résultats de séquençage, les chercheurs peuvent identifier avec précision les séquences de bases et détecter les variations génétiques, et appliquer efficacement les données de séquençage à la vérification de clonage de gènes, à la détection de mutations, à la recherche sur la fonction des gènes et dans d'autres domaines.
Références :