Dévoiler la méthylation 5mC avec le séquençage PacBio et l'apprentissage automatique

Introduction au principe de séquençage PacBio

Séquençage PacBio fonctionne sur le concept de synthèse et de séquençage simultanés. Cela implique l'immobilisation de dNTP libres sur le substrat, déclenchant une excitation lumineuse pour générer un signal fluorescent. En raison des espaces confinés dans les puits de séquençage, le signal fluorescent a une distance de déplacement limitée. À la fin de chaque synthèse de base, le groupe phosphate fluorescent se détache du dNTP, entraînant un quenching du signal. Cela entraîne la génération d'un signal fluorescent qui fluctue entre faible et fort, puis de nouveau faible, pendant chaque synthèse de base. L'enregistrement en temps réel de ces signaux par un capteur facilite leur conversion en un format numérique, créant une courbe d'impulsion de force du signal de fluorescence dans le temps pour identification précise de la base.

Défis dans la détection de 5mC

Distinguer 5mC de non-5mC pose des défis distincts par rapport à la détection de 6 mA. L'impact subtil de la 5mC sur les propriétés cinétiques de l'ADN polymérase rend difficile l'observation de différences significatives dans les courbes de pulsation. Surmonter cet obstacle nécessite l'identification de variables caractéristiques capables de discerner la 5mC. Les connaissances existantes mettent en évidence La capacité de PacBio reconnaître les types de base et générer des courbes de pulsation de fluorescence en temps réel. Pour ce faire, l'équipe de recherche a systématiquement pris en compte diverses variables pour caractériser les bases de cytosine PacBio et leurs environnements. Ces variables incluent la base de contexte du C, l'intervalle entre les pics voisins de la courbe (IPD) et la différence entre les pics de début et de fin (PW).

1. Informations de base contextuelles :

Précision dans la reconnaissance de baseL'identification précise des types de bases par PacBio permet de déterminer la base contextuelle pour chaque C.

2. Variables de la courbe d'impulsions de fluorescence :

Interval pour la différence de temps (IPD) : Décrivant la différence de temps entre les pics adjacents de la courbe, l'IPD caractérise la variation de synchronisation entre les bases au sein de la chaîne d'ADN synthétisée.

Différence de Pic à Pic : Caractériser la différence de temps entre l'entrée et la sortie d'une base dans la chaîne d'ADN synthétisée, la différence entre les pics d'une courbe fournit des informations précieuses.

En exploitant ces variables déterminantes, l'équipe de recherche a cherché à extraire des informations supplémentaires sur les caractéristiques des bases de cytosine et de leur environnement immédiat dans le processus de séquençage PacBio. Cette exploration vise à découvrir un test robuste pour la détection de 5mC.

Flux de travail en apprentissage automatique

Préparation du jeu de données

Pour créer des ensembles de données d'entraînement robustes, les auteurs élaborent un ensemble de données de séquençage d'amplification du génome entier (WGA) comme ensemble de test négatif, en utilisant l'amplification des dNTP non méthylés. Pour l'ensemble de test positif, un ensemble de données de séquençage avec méthylation des CpG traité par l'enzyme M.SssI est utilisé. L'ensemble de test négatif se caractérise par des sites principalement non méthylés, avec des signaux de méthylation potentiels provenant exclusivement des sites méthylés du génome de fond.

Perspicacité enzymatique

L'enzyme M.SssI, provenant d'un E. coli souche, devient un élément clé. Cette enzyme, portant un gène de méthyltransférase de Sprioplasma sp. MQ1, induit la méthylation à tous. sites CpG dans l'ADN double brin.

Entraînement du modèle

Les échantillons d'entraînement positifs sont extraits du jeu de données positif traité par l'enzyme M.SssI, tandis que des échantillons d'entraînement supplémentaires sont sélectionnés à partir du jeu de données de test négatif avec des quantités modérées de sites CpG. Ceux-ci sont combinés pour entraîner le modèle de Markov caché (HMM). Les échantillons restants sont réservés pour les tests d'évaluation du modèle.

Technologie de séquençage

Séquençage Sequel II de PacBio des kits sont utilisés pour générer des données de séquençage pour l'entraînement des modèles.

Compétence du modèle

Le modèle HK démontre sa capacité à distinguer efficacement entre les cytosines méthylées et non méthylées à travers diverses données de test générées par différents kits de séquençage. Une analyse de la courbe AUC identifie une valeur seuil critique de 0,5 pour cette discrimination.

Évaluation comparative

Un modèle de Markov caché (HMM) supplémentaire est introduit pour évaluer la performance du test 5mC, en particulier pour un échantillon BC01 avec une profondeur de séquençage élevée. Il est à noter que la performance de détection de la méthylation du HMM pour l'échantillon BC01 (83 % de sensibilité + 84 % de spécificité) est inférieure à celle du modèle HK basé sur CNN (87 % de sensibilité + 92 % de spécificité).

Explorer les variables

L'étude examine l'impact de la taille de la fenêtre, de la longueur de la séquence contextuelle et de la profondeur de séquençage sur la détection de la méthylation par le modèle HK.

Références:

Tse OYO, Jiang P, Cheng SH, Peng W, Shang H, Wong J, Chan SL, Poon LCY, Leung TY, Chan KCA, Chiu RWK, Lo YMD. Détection à l'échelle du génome de la méthylation des cytosines par séquençage en temps réel sur une seule molécule. Proc Natl Acad Sci U S A. 2 février 2021;118(5):e2019768118.
Choy LYL, Peng W, Jiang P, Cheng SH, Yu SCY, Shang H, Olivia Tse OY, Wong J, Wong VWS, Wong GLH, Lam WKJ, Chan SL, Chiu RWK, Chan KCA, Lo YMD. Le séquençage à molécule unique permet la détection prolongée de l'ADN libre de cellules et l'analyse directe de la méthylation pour les patients atteints de cancer. Clin Chem. 1er septembre 2022;68(9):1151-1163.
Flusberg BA, Webster DR, Lee JH, Travers KJ, Olivares EC, Clark TA, Korlach J, Turner SW. Détection directe de la méthylation de l'ADN lors du séquençage en temps réel à molécule unique. Nat Methods. Juin 2010;7(6):461-5.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés