Flux de travail d'analyse des données pour le séquençage Cut&Tag : des lectures brutes aux insights biologiques

Séquençage Cut & Tag est devenu une technique puissante en biologie moléculaire, permettant aux chercheurs d'étudier les interactions protéine-ADN avec une grande spécificité et sensibilité. Cette méthode peut identifier les sites de liaison pour les facteurs de transcription, les histones et d'autres protéines au niveau génomique. Cependant, pour réaliser pleinement le potentiel des données Cut & Tag, un flux de travail d'analyse de données complet est essentiel. Cet article décrit les étapes clés de l'analyse des données de séquençage Cut & Tag, des données de séquençage brutes aux insights biologiques.

Data processing flow and different types of enriched epigenetic signals.Flux de traitement des données et différents types de signaux épigénétiques enrichis (Cheng S et al., 2024)

I. Contrôle de la qualité des données et prétraitement

1.1 Évaluation de la qualité des données brutes

FastQC a été utilisé pour effectuer des contrôles de qualité multidimensionnels sur les données de séquençage brutes au format FASTQ, en se concentrant sur les indicateurs clés suivants :

  • Distribution de la qualité de base : La précision de séquençage à chaque position a été évaluée à l'aide d'un graphique de score de qualité par base, nécessitant que toutes les bases aient une valeur Q ≥ 20 (correspondant à un taux d'erreur ≤ 1 %).
  • Analyse de la contamination des adaptateurs : La distribution du contenu en GC par séquence a été détectée pour identifier des pics anormaux (tels que les fluctuations du contenu en GC spécifiques aux adaptateurs Illumina).
  • Distribution de la longueur des séquences : Les courts fragments causés par la troncature de séquençage ont été exclus (plage normale : 50-150 pb).

MultiQC a été utilisé pour intégrer divers résultats de contrôle de qualité et générer un rapport de visualisation (y compris un histogramme de distribution des scores de qualité, une carte thermique de la proportion de séquences répétitives, etc.).

1.2 Stratégies de nettoyage des données

  • Raccourcissement des adaptateurs : Pour les données de séquençage en paires, la première séquence d'adaptateur de 19 pb a été supprimée à l'aide de Cutadapt (paramètre -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC).
  • Filtrage de faible qualité : Un élagage dynamique a été effectué à l'aide de Trimmomatic, avec une fenêtre glissante (fenêtre de 4 pb, qualité moyenne ≥15), en conservant les lectures valides d'une longueur ≥36 pb.
  • Suppression des séquences répétitives : Picard MarkDuplicates a été utilisé pour identifier les lectures dupliquées générées par l'amplification PCR (en conservant les lectures alignées de manière unique).

II. Alignement de séquences et appel de pics

2.1 Alignement du génome de référence

  • Paramètres clés : Utilisez le mode `--very-sensitive-local` de Bowtie2 (en s'adaptant aux caractéristiques de clivage de Tn5) et `-N 1` (permettant des erreurs d'un seul base) pour garantir un alignement efficace des fragments de faible qualité.
  • Version du génome : Il est recommandé aux humains d'utiliser hg38, aux souris d'utiliser mm10, et la version doit être cohérente avec le fichier d'annotation.

2.2 Appel de Pic

  • Modifications des histones : Activez le mode pic large (`--broad`) et un seuil relâché (`--broad-cutoff 0.1`) pour capturer les régions de chromatine ouverte continues.
  • Facteurs de transcription : Utilisez le mode de pic étroit (`--narrow`), combiné avec `--shift 100` et `--extsize 200` pour compenser le biais de clivage Tn5.

GoPeaks et MACS2 sont plus performants que SEACR pour identifier une gamme de tailles de pics H3K4me3 (Yashar WM et al., 2022).

2.3 Normes de contrôle de la qualité

  • Valeur FRiP : Modifications des histones ≥5 %, facteurs de transcription ≥15 %, reflétant la spécificité du signal.
  • Longueur du pic : largeur de pic de modification des histones > 1 kb, largeur de pic de facteur de transcription < 500 pb, distinguant les différences dans les caractéristiques biologiques.

2.4 Validation des données

  • Filtrage des séquences répétitives : le biais d'amplification PCR a été éliminé en utilisant Picard MarkDuplicates.
  • Paramètres de contrôle : Des contrôles d'entrée ou d'IgG doivent être inclus pour améliorer le rapport signal sur bruit.

III. Annotation fonctionnelle et interprétation biologique

3.1 Analyse des annotations de pics

  • Outils et paramètres : Utilisez ChIPseeker (package R), définissez la plage de la région promotrice (TSS±3kb) et associez-la aux annotations génomiques (par exemple, TxDb pour hg38).
  • Analyse clé :
    • Distribution des régions géniques : Différencier les régions promoteurs (TSS±1kb), les régions enhancers (enrichies en H3K27ac), etc.
    • Annotation fonctionnelle : GO (fonction moléculaire/processus biologique), enrichment des voies KEGG (p<0,01, FDR<5%).
    • Contrôle de la qualité : pourcentage de la région promotrice ≥30 %, valeur FRiP ≥5 % (histone) ou ≥15 % (facteur de transcription).

3.2 Construction de Réseaux Réglementaires Dynamiques

  • Outils : GREAT, fichier de pic d'entrée et annotations génomiques, définir les régions régulatrices (par exemple, 500 bp en amont à 1 kb en aval).
  • Liste des gènes cibles directs et diagramme du réseau de régulation.
  • Étude de cas : H3K4me3 était significativement enrichi dans les régions promotrices des gènes de la voie WNT (p=2,3e-8), suggérant une activation de la voie.

3.3 Signification biologique

  • Analyse du mécanisme : Lien entre les modifications épigénétiques (par exemple, H3K27ac) et l'expression génique révélant l'activité des amplificateurs/promoteurs.
  • Application : Validation des réseaux réglementaires en utilisant RNA-seq données pour guider le dépistage des cibles de maladies (par exemple, voies anormalement modifiées dans le cancer).

IV. Visualisation des données et reporting

4.1 Visualisation de la distribution des signaux

  • Graphique de trajectoire IGV : Compare l'intensité du signal entre les groupes de traitement et de contrôle, localisant les régions exprimées différemment (par exemple, haute expression de H3K27ac dans les régions d'enhancer).
  • Carte thermique : Affiche les motifs d'enrichissement des signaux dans des régions spécifiques (promoteurs, amplificateurs) avec une haute résolution (par exemple, --binSize 10).
  • Trajectoire de Distribution Chromosomique : Fournit une vue panoramique de la distribution des signaux à l'échelle du génome, identifiant les enrichissements spécifiques aux chromosomes (par exemple, un signal accru sur les chromosomes contenant des oncogènes).

4.2 Stratégie d'analyse différentielle

  • Outils : DiffBind (package R), intégration des fichiers BAM et Peak pour analyser les différences inter-groupes.
  • Paramètres clés :
    • FDR ≤ 0,05 : Contrôle du taux de faux positifs.
    • Chevauchement minimum ≥ 50 % : Garantit la reproductibilité.
    • Changement de pli ≥ 2 fois : Démontre une signification biologique.
  • Résultats de sortie :
    • Liste des pics différentiels : Inclut la localisation, la longueur, le changement de pli et les gènes associés.
    • L'enrichissement fonctionnel : l'analyse GO (processus biologique/fonction moléculaire) et l'analyse des voies KEGG ont révélé des mécanismes régulateurs.

V. Optimisation du flux de travail et précautions

5.1 Points de contrôle clés de la qualité

Étape Indicateur de détection Norme de qualification Plan de gestion des anomalies
Contrôle de la qualité Valeur Q de FastQC Toutes les bases ≥ 20 Re-séquence ou couper
Alignement Taux d'alignement global ≥ 80 % Vérifiez la version du génome / contamination
Appel de pics Valeur FRiP Histone ≥ 5 %, TF ≥ 15 % Ajuster les paramètres d'appel de pics
Annotation Pourcentage de la région promotrice ≥ 30 % Vérifier la spécificité des anticorps

5.2 Solutions aux problèmes courants

  • Faible valeur FRiP : Vérifiez la spécificité des anticorps (en utilisant un contrôle IgG), optimisez les conditions de fragmentation de la chromatine.
  • Liaison non spécifique : Augmenter le nombre de lavages (par exemple, en utilisant des tampons à haute salinité), raccourcir le temps de réaction de transposition.
  • Anomalies de visualisation des données : Vérifiez la cohérence des versions du génome (par exemple, les différences de nommage des chromosomes entre hg38 et hg19).

VI. Points de contrôle clés de la qualité

Étape Indicateur de détection Norme de qualification Outil/Paramètres Objectif Plan de gestion des situations anormales
Contrôle de la qualité Valeur Q de FastQC Toutes les bases ≥ 20 FastQC/Q-score ≥ 20 Exclure les données de faible qualité. Re-séquence ou couper
Alignement Taux d'alignement global ≥ 80 % Bowtie2 -N 1 Localiser précisément les origines des fragments d'ADN Vérifiez la version du génome/la contamination
Appel de Pic Valeur FRiP Histone ≥ 5 %, TF ≥ 15 % MACS2 --large Distinguer les larges pics de modification des histones Ajuster les paramètres d'appel de pics
Annotation Pourcentage de la région promotrice ≥ 30 % ChIPseeker TSS ± 3kb Régions fonctionnelles des gènes associés Vérifier la spécificité des anticorps

Références et chaîne d'outils

  • Versions des outils principaux :
  • MACS2 2.2.6 (Prend en charge l'accélération multi-thread)
  • ChIPseeker 1.28.0 (Intègre la dernière annotation génomique)
  • deepTools 3.5.1 (Prend en charge le calcul accéléré par GPU)
  • Spécifications de stockage des données :
    • Données brutes : FASTQ.gz (Conserve les informations d'index originales)
    • Fichiers intermédiaires : BAM (tri + index), BED (compression nulle)
    • Sortie finale : BigWig (signal normalisé), PDF (image vectorielle)

Performance comparison of bioinformatics tools in the peak calling analysis of narrow-type CUT and Tag data.Comparaison des performances des outils de bioinformatique dans l'analyse de l'appel de pics des données CUT&Tag de type étroit (Cheng S et al., 2024)

VII. Analyse approfondie des scénarios d'application

7.1 Recherche sur l'hétérogénéité épigénétique

  • Li C et al., grâce à l'analyse des données CUT & Tag et au traitement des données de séquençage (alignement Bowtie2, rappel de pics MACS3), ont identifié 2067 sites de liaison de NICD1 dans le génome (44,84 % situés près des TSS, y compris les gènes cibles connus HES1/HES4). L'analyse des motifs HOMER a été utilisée pour identifier les éléments régulateurs, et la visualisation IGV a été utilisée pour annoter les positions des pics. L'intégration RNA-seq (L'expression du knockout NOTCH1), 31 gènes cibles (tels que USP5, dont le signal de pic est second seulement à HES1) ont été analysés. L'immunofluorescence a été utilisée pour vérifier la corrélation positive entre l'expression de NICD1 et celle de USP5, révélant finalement le mécanisme par lequel le signal Notch régule directement la transcription des gènes cibles et favorise l'angiogenèse via NICD1. Le cœur de cette étude est l'analyse des caractéristiques de liaison génomique de NICD1 et du réseau de régulation en aval.
  • Tao X et al. ont construit deux répliques biologiques de H3K4me3 CUT&Tag (avec IgG comme contrôle) et ont mené des expériences ChIP parallèles. Après avoir vérifié la qualité des fragments (~350 bp) à l'aide de qubits et de cartographie. NGS les lectures par rapport au génome de référence, ils ont constaté que le groupe expérimental CUT&Tag avait une corrélation extrêmement faible avec le contrôle IgG (r=0,01, faible bruit de fond), et l'intensité du signal, après normalisation, était significativement plus élevée que celle de ChIP-seq (Correlation ChIP avec le contrôle simulé r=0,89, faible rapport signal/bruit). La distribution des pics a montré que 60-70 % du signal H3K4me3 était enrichi dans le promoteur de 1 kb et le premier exon/intron (conforme au ChIP), et les résultats de vérification de la corrélation des pics près du gène étaient fiables.CUT&Tag deux répliques r=0,94, comparées à ChIP r=0,71). Cela démontre que CUT&Tag nécessite moins de matériel de départ et peut générer des signaux haute résolution avec un faible bruit de fond, ce qui le rend adapté à un large éventail d'études épigénétiques sur les plantes.

7.2 Analyse du Réseau Régulateur du Développement

Akdogan-Ozdilek B et al. ont utilisé des embryons de poisson zèbre au stade de barrière complète comme matériel dans CUT&Tag. Grâce à un protocole mammifère modifié (combiné avec CUT&RUN), ils ont généré des cartes d'enrichissement à haute résolution de H3K4me3, H3K27me3, H3K9me3, de l'ARN polymérase II et de H2A.Z. Les données de séquençage ont subi une suppression des adaptateurs via CutAdapt, un alignement du génome du poisson zèbre avec Bowtie2 (GRCz.11), un filtrage des lectures non mappées avec samtools, et une suppression des répétitions PCR avec picard. Les données ont ensuite été analysées avec macs2 et traitées par deepTools pour générer des trajectoires génomiques et des cartes thermiques/contours, fournissant une analyse centrale du paysage de la chromatine des embryons de poisson zèbre. L'identification de sous-ensembles de gènes qui peuvent être régulés de manière bivalente durant le développement gastrique chez le poisson zèbre et les souris fournit des preuves de l'évolution de H2A.Z. Un signal robuste de H2A.Z a été détecté dans les embryons au stade de barrière complète, avec un enrichissement au niveau des promoteurs de gènes (cohérent avec des études précédentes). Environ 74 % des gènes marqueurs de H2A.Z étaient exprimés durant le stade de protection (TPM>0,5).

CUT&Tag detects H2A.Z in shield stage zebrafish embryos.CUT&Tag détecte H2A.Z dans les embryons de poisson zèbre au stade de bouclier (Akdogan-Ozdilek B et al., 2021)

Résumé

Grâce à ce flux de travail, les chercheurs peuvent analyser systématiquement les données CUT & Tag, formant une chaîne complète de preuves allant de la validation technique à l'interprétation des mécanismes. Il est recommandé de mettre à jour régulièrement les fichiers d'annotation du génome (par exemple, en utilisant la version 109 d'Ensembl) et d'établir une base de données de seuils de contrôle qualité spécifique au laboratoire.

Références :

  1. Cheng S, Miao B, Li T, Zhao G, Zhang B. Réviser et évaluer les stratégies d'analyse bioinformatique des données ATAC-seq et CUT&Tag.. Génomique Protéomique Bioinformatique. 2024 Sep 13;22(3):qzae054.
  2. Li C, Wu P, Xie X, Chen X, Chen L, Zhu L, Xuan Z, Liu T, Tan W, Zhang S, Lin D, Wu C. Le signalement aberrant de Notch favorise l'angiogenèse tumorale dans le carcinome épidermoïde de l'œsophage.. Signal Transduct Target Ther2025 Jul 22;10(1):233. doi: 10.1038/s41392-025-02309-5. Erratum dans : Signal Transduct Target Ther. 2025 Aug 31;10(1):288.
  3. Yashar WM, Kong G, VanCampen J, Curtiss BM, Coleman DJ, Carbone L, Yardimci GG, Maxson JE, Braun TP. GoPeaks : appel de pics de modification des histones pour CUT&Tag. Genome Biol2022 4 juil.;23(1):144.
  4. Tao X, Feng S, Zhao T, Guan X. Profilage chromatin efficace de la modification H3K4me3 dans le coton en utilisant CUT&Tag. Méthodes de Plante. 31 août 2020 ; 16 : 120.
  5. Akdogan-Ozdilek B, Duval KL, Meng FW, Murphy PJ, Goll MG. Identification des états de la chromatine pendant la gastrulation des zebrafish en utilisant CUT&RUN et CUT&Tag.. Dev Dyn. Avril 2022 ; 251(4) : 729-742.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut