Séquençage PacBio fonctionne sur le concept de synthèse et de séquençage simultanés. Cela implique l'immobilisation de dNTP libres sur le substrat, déclenchant une excitation lumineuse pour générer un signal fluorescent. En raison des espaces confinés dans les puits de séquençage, le signal fluorescent a une distance de déplacement limitée. À la fin de chaque synthèse de base, le groupe phosphate fluorescent se détache du dNTP, entraînant un quenching du signal. Cela entraîne la génération d'un signal fluorescent qui fluctue entre faible et fort, puis de nouveau faible, pendant chaque synthèse de base. L'enregistrement en temps réel de ces signaux par un capteur facilite leur conversion en un format numérique, créant une courbe d'impulsion de force du signal de fluorescence dans le temps pour identification précise de la base.
Distinguer 5mC de non-5mC pose des défis distincts par rapport à la détection de 6 mA. L'impact subtil de la 5mC sur les propriétés cinétiques de l'ADN polymérase rend difficile l'observation de différences significatives dans les courbes de pulsation. Surmonter cet obstacle nécessite l'identification de variables caractéristiques capables de discerner la 5mC. Les connaissances existantes mettent en évidence La capacité de PacBio reconnaître les types de base et générer des courbes de pulsation de fluorescence en temps réel. Pour ce faire, l'équipe de recherche a systématiquement pris en compte diverses variables pour caractériser les bases de cytosine PacBio et leurs environnements. Ces variables incluent la base de contexte du C, l'intervalle entre les pics voisins de la courbe (IPD) et la différence entre les pics de début et de fin (PW).
1. Informations de base contextuelles :
Précision dans la reconnaissance de baseL'identification précise des types de bases par PacBio permet de déterminer la base contextuelle pour chaque C.
2. Variables de la courbe d'impulsions de fluorescence :
Interval pour la différence de temps (IPD) : Décrivant la différence de temps entre les pics adjacents de la courbe, l'IPD caractérise la variation de synchronisation entre les bases au sein de la chaîne d'ADN synthétisée.
Différence de Pic à Pic : Caractériser la différence de temps entre l'entrée et la sortie d'une base dans la chaîne d'ADN synthétisée, la différence entre les pics d'une courbe fournit des informations précieuses.
En exploitant ces variables déterminantes, l'équipe de recherche a cherché à extraire des informations supplémentaires sur les caractéristiques des bases de cytosine et de leur environnement immédiat dans le processus de séquençage PacBio. Cette exploration vise à découvrir un test robuste pour la détection de 5mC.
Pour créer des ensembles de données d'entraînement robustes, les auteurs élaborent un ensemble de données de séquençage d'amplification du génome entier (WGA) comme ensemble de test négatif, en utilisant l'amplification des dNTP non méthylés. Pour l'ensemble de test positif, un ensemble de données de séquençage avec méthylation des CpG traité par l'enzyme M.SssI est utilisé. L'ensemble de test négatif se caractérise par des sites principalement non méthylés, avec des signaux de méthylation potentiels provenant exclusivement des sites méthylés du génome de fond.
L'enzyme M.SssI, provenant d'un E. coli souche, devient un élément clé. Cette enzyme, portant un gène de méthyltransférase de Sprioplasma sp. MQ1, induit la méthylation à tous. sites CpG dans l'ADN double brin.
Les échantillons d'entraînement positifs sont extraits du jeu de données positif traité par l'enzyme M.SssI, tandis que des échantillons d'entraînement supplémentaires sont sélectionnés à partir du jeu de données de test négatif avec des quantités modérées de sites CpG. Ceux-ci sont combinés pour entraîner le modèle de Markov caché (HMM). Les échantillons restants sont réservés pour les tests d'évaluation du modèle.
Séquençage Sequel II de PacBio des kits sont utilisés pour générer des données de séquençage pour l'entraînement des modèles.
Le modèle HK démontre sa capacité à distinguer efficacement entre les cytosines méthylées et non méthylées à travers diverses données de test générées par différents kits de séquençage. Une analyse de la courbe AUC identifie une valeur seuil critique de 0,5 pour cette discrimination.
Un modèle de Markov caché (HMM) supplémentaire est introduit pour évaluer la performance du test 5mC, en particulier pour un échantillon BC01 avec une profondeur de séquençage élevée. Il est à noter que la performance de détection de la méthylation du HMM pour l'échantillon BC01 (83 % de sensibilité + 84 % de spécificité) est inférieure à celle du modèle HK basé sur CNN (87 % de sensibilité + 92 % de spécificité).
L'étude examine l'impact de la taille de la fenêtre, de la longueur de la séquence contextuelle et de la profondeur de séquençage sur la détection de la méthylation par le modèle HK.
Références: