Flux de travail d'analyse des données pour le séquençage Cut&Tag : des lectures brutes aux insights biologiques

Séquençage Cut & Tag est devenu une technique puissante en biologie moléculaire, permettant aux chercheurs d'étudier les interactions protéine-ADN avec une grande spécificité et sensibilité. Cette méthode peut identifier les sites de liaison pour les facteurs de transcription, les histones et d'autres protéines au niveau génomique. Cependant, pour réaliser pleinement le potentiel des données Cut & Tag, un flux de travail d'analyse de données complet est essentiel. Cet article décrit les étapes clés de l'analyse des données de séquençage Cut & Tag, des données de séquençage brutes aux insights biologiques.

Data processing flow and different types of enriched epigenetic signals. Flux de traitement des données et différents types de signaux épigénétiques enrichis (Cheng S et al., 2024)

I. Contrôle de la qualité des données et prétraitement

1.1 Évaluation de la qualité des données brutes

FastQC a été utilisé pour effectuer des contrôles de qualité multidimensionnels sur les données de séquençage brutes au format FASTQ, en se concentrant sur les indicateurs clés suivants :

Distribution de la qualité de base : La précision de séquençage à chaque position a été évaluée à l'aide d'un graphique de score de qualité par base, nécessitant que toutes les bases aient une valeur Q ≥ 20 (correspondant à un taux d'erreur ≤ 1 %).
Analyse de la contamination des adaptateurs : La distribution du contenu en GC par séquence a été détectée pour identifier des pics anormaux (tels que les fluctuations du contenu en GC spécifiques aux adaptateurs Illumina).
Distribution de la longueur des séquences : Les courts fragments causés par la troncature de séquençage ont été exclus (plage normale : 50-150 pb).

MultiQC a été utilisé pour intégrer divers résultats de contrôle de qualité et générer un rapport de visualisation (y compris un histogramme de distribution des scores de qualité, une carte thermique de la proportion de séquences répétitives, etc.).

1.2 Stratégies de nettoyage des données

Raccourcissement des adaptateurs : Pour les données de séquençage en paires, la première séquence d'adaptateur de 19 pb a été supprimée à l'aide de Cutadapt (paramètre -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC).
Filtrage de faible qualité : Un élagage dynamique a été effectué à l'aide de Trimmomatic, avec une fenêtre glissante (fenêtre de 4 pb, qualité moyenne ≥15), en conservant les lectures valides d'une longueur ≥36 pb.
Suppression des séquences répétitives : Picard MarkDuplicates a été utilisé pour identifier les lectures dupliquées générées par l'amplification PCR (en conservant les lectures alignées de manière unique).

II. Alignement de séquences et appel de pics

2.1 Alignement du génome de référence

Paramètres clés : Utilisez le mode `--very-sensitive-local` de Bowtie2 (en s'adaptant aux caractéristiques de clivage de Tn5) et `-N 1` (permettant des erreurs d'un seul base) pour garantir un alignement efficace des fragments de faible qualité.
Version du génome : Il est recommandé aux humains d'utiliser hg38, aux souris d'utiliser mm10, et la version doit être cohérente avec le fichier d'annotation.

2.2 Appel de Pic

Modifications des histones : Activez le mode pic large (`--broad`) et un seuil relâché (`--broad-cutoff 0.1`) pour capturer les régions de chromatine ouverte continues.
Facteurs de transcription : Utilisez le mode de pic étroit (`--narrow`), combiné avec `--shift 100` et `--extsize 200` pour compenser le biais de clivage Tn5.

GoPeaks et MACS2 sont plus performants que SEACR pour identifier une gamme de tailles de pics H3K4me3 (Yashar WM et al., 2022).

2.3 Normes de contrôle de la qualité

Valeur FRiP : Modifications des histones ≥5 %, facteurs de transcription ≥15 %, reflétant la spécificité du signal.
Longueur du pic : largeur de pic de modification des histones > 1 kb, largeur de pic de facteur de transcription < 500 pb, distinguant les différences dans les caractéristiques biologiques.

2.4 Validation des données

Filtrage des séquences répétitives : le biais d'amplification PCR a été éliminé en utilisant Picard MarkDuplicates.
Paramètres de contrôle : Des contrôles d'entrée ou d'IgG doivent être inclus pour améliorer le rapport signal sur bruit.

III. Annotation fonctionnelle et interprétation biologique

3.1 Analyse des annotations de pics

Outils et paramètres : Utilisez ChIPseeker (package R), définissez la plage de la région promotrice (TSS±3kb) et associez-la aux annotations génomiques (par exemple, TxDb pour hg38).
Analyse clé :
- Distribution des régions géniques : Différencier les régions promoteurs (TSS±1kb), les régions enhancers (enrichies en H3K27ac), etc.
- Annotation fonctionnelle : GO (fonction moléculaire/processus biologique), enrichment des voies KEGG (p<0,01, FDR<5%).
- Contrôle de la qualité : pourcentage de la région promotrice ≥30 %, valeur FRiP ≥5 % (histone) ou ≥15 % (facteur de transcription).

3.2 Construction de Réseaux Réglementaires Dynamiques

Outils : GREAT, fichier de pic d'entrée et annotations génomiques, définir les régions régulatrices (par exemple, 500 bp en amont à 1 kb en aval).
Liste des gènes cibles directs et diagramme du réseau de régulation.
Étude de cas : H3K4me3 était significativement enrichi dans les régions promotrices des gènes de la voie WNT (p=2,3e-8), suggérant une activation de la voie.

3.3 Signification biologique

Analyse du mécanisme : Lien entre les modifications épigénétiques (par exemple, H3K27ac) et l'expression génique révélant l'activité des amplificateurs/promoteurs.
Application : Validation des réseaux réglementaires en utilisant RNA-seq données pour guider le dépistage des cibles de maladies (par exemple, voies anormalement modifiées dans le cancer).

IV. Visualisation des données et reporting

4.1 Visualisation de la distribution des signaux

Graphique de trajectoire IGV : Compare l'intensité du signal entre les groupes de traitement et de contrôle, localisant les régions exprimées différemment (par exemple, haute expression de H3K27ac dans les régions d'enhancer).
Carte thermique : Affiche les motifs d'enrichissement des signaux dans des régions spécifiques (promoteurs, amplificateurs) avec une haute résolution (par exemple, --binSize 10).
Trajectoire de Distribution Chromosomique : Fournit une vue panoramique de la distribution des signaux à l'échelle du génome, identifiant les enrichissements spécifiques aux chromosomes (par exemple, un signal accru sur les chromosomes contenant des oncogènes).

4.2 Stratégie d'analyse différentielle

Outils : DiffBind (package R), intégration des fichiers BAM et Peak pour analyser les différences inter-groupes.
Paramètres clés :
- FDR ≤ 0,05 : Contrôle du taux de faux positifs.
- Chevauchement minimum ≥ 50 % : Garantit la reproductibilité.
- Changement de pli ≥ 2 fois : Démontre une signification biologique.
Résultats de sortie :
- Liste des pics différentiels : Inclut la localisation, la longueur, le changement de pli et les gènes associés.
- L'enrichissement fonctionnel : l'analyse GO (processus biologique/fonction moléculaire) et l'analyse des voies KEGG ont révélé des mécanismes régulateurs.

V. Optimisation du flux de travail et précautions

5.1 Points de contrôle clés de la qualité

Étape	Indicateur de détection	Norme de qualification	Plan de gestion des anomalies
Contrôle de la qualité	Valeur Q de FastQC	Toutes les bases ≥ 20	Re-séquence ou couper
Alignement	Taux d'alignement global	≥ 80 %	Vérifiez la version du génome / contamination
Appel de pics	Valeur FRiP	Histone ≥ 5 %, TF ≥ 15 %	Ajuster les paramètres d'appel de pics
Annotation	Pourcentage de la région promotrice	≥ 30 %	Vérifier la spécificité des anticorps

5.2 Solutions aux problèmes courants

Faible valeur FRiP : Vérifiez la spécificité des anticorps (en utilisant un contrôle IgG), optimisez les conditions de fragmentation de la chromatine.
Liaison non spécifique : Augmenter le nombre de lavages (par exemple, en utilisant des tampons à haute salinité), raccourcir le temps de réaction de transposition.
Anomalies de visualisation des données : Vérifiez la cohérence des versions du génome (par exemple, les différences de nommage des chromosomes entre hg38 et hg19).

VI. Points de contrôle clés de la qualité

Étape	Indicateur de détection	Norme de qualification	Outil/Paramètres	Objectif	Plan de gestion des situations anormales
Contrôle de la qualité	Valeur Q de FastQC	Toutes les bases ≥ 20	FastQC/Q-score ≥ 20	Exclure les données de faible qualité.	Re-séquence ou couper
Alignement	Taux d'alignement global	≥ 80 %	Bowtie2 -N 1	Localiser précisément les origines des fragments d'ADN	Vérifiez la version du génome/la contamination
Appel de Pic	Valeur FRiP	Histone ≥ 5 %, TF ≥ 15 %	MACS2 --large	Distinguer les larges pics de modification des histones	Ajuster les paramètres d'appel de pics
Annotation	Pourcentage de la région promotrice	≥ 30 %	ChIPseeker TSS ± 3kb	Régions fonctionnelles des gènes associés	Vérifier la spécificité des anticorps

Références et chaîne d'outils

Versions des outils principaux :
MACS2 2.2.6 (Prend en charge l'accélération multi-thread)
ChIPseeker 1.28.0 (Intègre la dernière annotation génomique)
deepTools 3.5.1 (Prend en charge le calcul accéléré par GPU)
Spécifications de stockage des données :
- Données brutes : FASTQ.gz (Conserve les informations d'index originales)
- Fichiers intermédiaires : BAM (tri + index), BED (compression nulle)
- Sortie finale : BigWig (signal normalisé), PDF (image vectorielle)

Performance comparison of bioinformatics tools in the peak calling analysis of narrow-type CUT and Tag data. Comparaison des performances des outils de bioinformatique dans l'analyse de l'appel de pics des données CUT&Tag de type étroit (Cheng S et al., 2024)

VII. Analyse approfondie des scénarios d'application

7.1 Recherche sur l'hétérogénéité épigénétique

Li C et al., grâce à l'analyse des données CUT & Tag et au traitement des données de séquençage (alignement Bowtie2, rappel de pics MACS3), ont identifié 2067 sites de liaison de NICD1 dans le génome (44,84 % situés près des TSS, y compris les gènes cibles connus HES1/HES4). L'analyse des motifs HOMER a été utilisée pour identifier les éléments régulateurs, et la visualisation IGV a été utilisée pour annoter les positions des pics. L'intégration RNA-seq (L'expression du knockout NOTCH1), 31 gènes cibles (tels que USP5, dont le signal de pic est second seulement à HES1) ont été analysés. L'immunofluorescence a été utilisée pour vérifier la corrélation positive entre l'expression de NICD1 et celle de USP5, révélant finalement le mécanisme par lequel le signal Notch régule directement la transcription des gènes cibles et favorise l'angiogenèse via NICD1. Le cœur de cette étude est l'analyse des caractéristiques de liaison génomique de NICD1 et du réseau de régulation en aval.
Tao X et al. ont construit deux répliques biologiques de H3K4me3 CUT&Tag (avec IgG comme contrôle) et ont mené des expériences ChIP parallèles. Après avoir vérifié la qualité des fragments (~350 bp) à l'aide de qubits et de cartographie. NGS les lectures par rapport au génome de référence, ils ont constaté que le groupe expérimental CUT&Tag avait une corrélation extrêmement faible avec le contrôle IgG (r=0,01, faible bruit de fond), et l'intensité du signal, après normalisation, était significativement plus élevée que celle de ChIP-seq (Correlation ChIP avec le contrôle simulé r=0,89, faible rapport signal/bruit). La distribution des pics a montré que 60-70 % du signal H3K4me3 était enrichi dans le promoteur de 1 kb et le premier exon/intron (conforme au ChIP), et les résultats de vérification de la corrélation des pics près du gène étaient fiables.CUT&Tag deux répliques r=0,94, comparées à ChIP r=0,71). Cela démontre que CUT&Tag nécessite moins de matériel de départ et peut générer des signaux haute résolution avec un faible bruit de fond, ce qui le rend adapté à un large éventail d'études épigénétiques sur les plantes.

7.2 Analyse du Réseau Régulateur du Développement

Akdogan-Ozdilek B et al. ont utilisé des embryons de poisson zèbre au stade de barrière complète comme matériel dans CUT&Tag. Grâce à un protocole mammifère modifié (combiné avec CUT&RUN), ils ont généré des cartes d'enrichissement à haute résolution de H3K4me3, H3K27me3, H3K9me3, de l'ARN polymérase II et de H2A.Z. Les données de séquençage ont subi une suppression des adaptateurs via CutAdapt, un alignement du génome du poisson zèbre avec Bowtie2 (GRCz.11), un filtrage des lectures non mappées avec samtools, et une suppression des répétitions PCR avec picard. Les données ont ensuite été analysées avec macs2 et traitées par deepTools pour générer des trajectoires génomiques et des cartes thermiques/contours, fournissant une analyse centrale du paysage de la chromatine des embryons de poisson zèbre. L'identification de sous-ensembles de gènes qui peuvent être régulés de manière bivalente durant le développement gastrique chez le poisson zèbre et les souris fournit des preuves de l'évolution de H2A.Z. Un signal robuste de H2A.Z a été détecté dans les embryons au stade de barrière complète, avec un enrichissement au niveau des promoteurs de gènes (cohérent avec des études précédentes). Environ 74 % des gènes marqueurs de H2A.Z étaient exprimés durant le stade de protection (TPM>0,5).

CUT&Tag detects H2A.Z in shield stage zebrafish embryos. CUT&Tag détecte H2A.Z dans les embryons de poisson zèbre au stade de bouclier (Akdogan-Ozdilek B et al., 2021)

Résumé

Grâce à ce flux de travail, les chercheurs peuvent analyser systématiquement les données CUT & Tag, formant une chaîne complète de preuves allant de la validation technique à l'interprétation des mécanismes. Il est recommandé de mettre à jour régulièrement les fichiers d'annotation du génome (par exemple, en utilisant la version 109 d'Ensembl) et d'établir une base de données de seuils de contrôle qualité spécifique au laboratoire.

Références :

Cheng S, Miao B, Li T, Zhao G, Zhang B. Réviser et évaluer les stratégies d'analyse bioinformatique des données ATAC-seq et CUT&Tag.. Génomique Protéomique Bioinformatique. 2024 Sep 13;22(3):qzae054.
Li C, Wu P, Xie X, Chen X, Chen L, Zhu L, Xuan Z, Liu T, Tan W, Zhang S, Lin D, Wu C. Le signalement aberrant de Notch favorise l'angiogenèse tumorale dans le carcinome épidermoïde de l'œsophage.. Signal Transduct Target Ther2025 Jul 22;10(1):233. doi: 10.1038/s41392-025-02309-5. Erratum dans : Signal Transduct Target Ther. 2025 Aug 31;10(1):288.
Yashar WM, Kong G, VanCampen J, Curtiss BM, Coleman DJ, Carbone L, Yardimci GG, Maxson JE, Braun TP. GoPeaks : appel de pics de modification des histones pour CUT&Tag. Genome Biol2022 4 juil.;23(1):144.
Tao X, Feng S, Zhao T, Guan X. Profilage chromatin efficace de la modification H3K4me3 dans le coton en utilisant CUT&Tag. Méthodes de Plante. 31 août 2020 ; 16 : 120.
Akdogan-Ozdilek B, Duval KL, Meng FW, Murphy PJ, Goll MG. Identification des états de la chromatine pendant la gastrulation des zebrafish en utilisant CUT&RUN et CUT&Tag.. Dev Dyn. Avril 2022 ; 251(4) : 729-742.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés