Comment analyser les données ChIP-Seq : de la prétraitement des données à l'analyse en aval

Les interactions ADN-protéine sont largement utilisées pour élucider les mécanismes potentiels de la physiologie cellulaire. Le développement des essais d'immunoprécipitation de la chromatine (ChIP) a permis d'étudier de tels mécanismes. Avec de nouveaux développements, les technologies de séquençage profond (ChIP-Seq) ont émergé, offrant des avantages en termes de spécificité et de sensibilité.

Dans cet article, nous fournirons un aperçu détaillé des étapes impliquées dans l'analyse ChIP-seq et des meilleures pratiques pour garantir des résultats précis et fiables.

Workflow of ChIP sequencing and data analysisFlux de travail du séquençage ChIP et analyse des données (Ryuichiro Nakato)

Contrôle de qualité et découpe de lecture

La première étape de l'analyse ChIP-seq est le contrôle de la qualité des lectures de séquençage. Le contrôle de la qualité consiste à évaluer la qualité des lectures de séquençage brutes à l'aide d'outils tels que FastQC ou Trimmomatic. Le contrôle de la qualité garantit que les données sont de haute qualité et adaptées à l'analyse ultérieure. Après le contrôle de la qualité, les lectures sont tronquées pour éliminer les bases de faible qualité ou les adaptateurs à l'aide d'outils tels que Cutadapt ou Trimmomatic. Nous avons un processus rigoureux de gestion des données brutes qui élimine les lectures de faible qualité, les séquences d'adaptateurs et les lectures avec une faible qualité de mappage.

Métriques importantes pour le contrôle de la qualité des données ChIP-seq

Le contrôle de qualité (CQ) du ChIP-seq est essentiel pour déterminer si les données de séquençage sont de haute qualité et peuvent être analysées plus avant. Certains des indicateurs particulièrement importants incluent :

RatioLe rapport des lectures séquencées reflétant la qualité des lectures et de l'ADN génomique.

Profondeur de lecture (nombre de lectures comparées après suppression des redondances). Le consortium ENCODE recommande un minimum de 10 millions de lectures appariées de manière unique comme valeur minimale des pics en mode aigu pour l'analyse des échantillons humains. Les marqueurs d'histones larges ont généralement un rapport signal/bruit plus faible et nécessitent plus de lectures (>40 millions pour les échantillons humains) comme valeur minimale pour l'appel des pics.

Complexité de la bibliothèque (ratio de lectures non redondantes). Allant de 0 à 1, ENCODE considère que la complexité du ratio de 10M de lectures devrait être > 0,8.

Coefficient de brin normalisé (NSC, calculé par SSP). métriques de rapport signal-bruit (S/N) pour des pics aigus et larges, avec des seuils recommandés de NSC > 5.0 (pics aigus) et NSC > 1.5 (pics larges), en utilisant la base de données publique ChIP-seq 10M pour une validation approfondie sur plusieurs espèces. Les échantillons d'entrée devraient avoir un faible S/N et donc les valeurs de NSC devraient être < 2.0.

Uniformité de fond (Bu). bu reflète la déviation de la distribution des lectures dans la région de fond, allant de 0 à 1. Une valeur bu faible (<0,8) indique que la distribution des lectures est plus concentrée que prévu ou présente une préférence, ce qui entraîne généralement de nombreux faux positifs parmi les pics obtenus. Pour les génomes avec une variation du nombre de copies étendue (par exemple, les cellules MCF-7), un seuil Bu plus détendu (>0,6) est nécessaire.

Écart de pic GC. Réfléchissant les préférences lors de l'immunoprécipitation et de l'amplification PCR, les données ChIP-seq présentent généralement des pics de GC similaires à ceux du génome de référence. (Le biais GC (par exemple, ~50 % chez les humains) est souvent observé (par exemple, >60 % chez les humains) en raison des préférences d'amplification PCR et/ou des pics faussement positifs provenant de régions "super-enrichies" associées aux îlots CpG.

Alignement

L'étape suivante dans l'analyse ChIP-seq est l'alignement des lectures de séquençage au génome ou à la transcriptome de référence. L'alignement ou le mapping est généralement effectué à l'aide de logiciels d'alignement tels que Bowtie, BWA ou HISAT2. L'alignement garantit que les lectures sont mappées à l'emplacement génomique correct, et il est essentiel d'utiliser des paramètres d'alignement appropriés pour assurer un alignement précis. Nous utilisons différents outils de mapping en fonction de vos besoins spécifiques ou de votre projet, tels que la taille du génome, la profondeur de séquençage et vos questions de recherche.

Appel de pics à partir des données ChIP-Seq

Les pics sont des régions du génome où la protéine d'intérêt est liée. L'appel de pics est le processus d'identification des pics à partir des lectures de séquençage alignées. La liaison de différentes protéines à l'ADN peut être classée selon les caractéristiques de largeur et de distribution des pics, pic étroit (c'est-à-dire une séquence courte spécifique se produisant sur l'ADN avec une région de liaison courte) et pic large (qui est diffusément et continuellement distribué sur l'ADN avec un motif de pic large). Plusieurs algorithmes d'appel de pics sont disponibles, tels que MACS2, SICER et PeakSeq. Il est essentiel d'utiliser des paramètres d'appel de pics appropriés pour garantir un appel de pics précis. Les pics faussement positifs peuvent être éliminés à l'aide d'outils tels que HOMER ou BEDTools.

Contrôle de qualité de l'appel de pics

Après l'appel des pics, des mesures de contrôle de la qualité sont appliquées pour s'assurer que les pics sont de haute qualité et ne sont pas des faux positifs. Les mesures de contrôle de la qualité comprennent l'évaluation de la forme des pics, de l'enrichissement et de l'annotation des pics. HOMER peut être utilisé pour annoter les pics et identifier les motifs enrichis.

Analyse fonctionnelle

L'analyse des motifs examine des séquences spécifiques dans des pics ou des régions épigénomiques spécifiques (par exemple, des loci d'activateurs) et prédit de possibles sites de liaison de facteurs de transcription au sein des régions identifiées. En général, les méthodes d'analyse des motifs peuvent être divisées en deux types :

  • découverte de motifs de novo, utilisée pour identifier de nouveaux motifs de liaison potentiels pour des facteurs inconnus qui apparaissent dans la plupart des pics ;
  • scannage de motifs, utilisé pour prédire et aligner la similarité des séquences d'ADN fournies avec tous les motifs connus dans la base de données.

Les pics de ChIP-seq peuvent également être utilisés pour l'analyse d'enrichissement fonctionnel. Cette analyse séquence les gènes voisins comme cibles potentielles pour le marquage bidirectionnel ou le séquençage quantitatif et les regroupe par analyse GO ou KEGG.

Étapes principales de l'exploitation des données ChIP-seq

  • Cartographie ChIP-seq: identification de la distribution des pics ou des lectures sur le génome, l'enrichissement des pics sur les composants génomiques, la distribution des pics sur les composants géniques, l'analyse des motifs des pics, l'analyse de la distance des pics par rapport aux loci TSS, et l'analyse fonctionnelle des gènes modifiés par les pics.
  • Dépistage de pics différentiels spécifiques et de gènes: l'identification de pics différentiels spécifiques et de gènes. Cette étape comprend l'identification des pics différentiels, les stratégies d'analyse pour les données non chronologiques, les stratégies d'analyse pour les données chronologiques, l'analyse fonctionnelle des gènes associés aux pics différentiels, l'analyse PPI des gènes associés aux pics différentiels, et la présentation visuelle des régions cibles d'intérêt.
  • ChIP-seq et transcriptomique analyse d'association: l'association correspondante des gènes associés aux pics avec les gènes exprimés de manière différentielle (DEGs), le dépistage des régions cibles et des gènes cibles. L'objectif de cette étape est d'identifier les gènes qui sont directement régulés par la protéine d'intérêt et de comprendre comment les changements dans la liaison des protéines impactent l'expression des gènes.
  • Conception expérimentale en avalIl est essentiel de confirmer les résultats de l'analyse ChIP-seq et de fournir des informations supplémentaires sur la signification fonctionnelle des sites de liaison des protéines. En fonction de la question de recherche et des données, des expériences complémentaires peuvent être nécessaires pour valider les régions cibles et les gènes cibles candidats pour la liaison des facteurs de transcription/modifications des histones.

L'analyse ChIP-seq est un processus complexe qui nécessite une compréhension approfondie et l'application de la biologie sous-jacente et des outils de bioinformatique. CD Genomics fournit des services de haute qualité. Services d'analyse ChIP-Seq aux chercheurs et aux entreprises du monde entier, y compris la conception de projets, l'acquisition de données, l'analyse des données brutes et la conception d'expériences en aval. Notre équipe professionnelle fournit des rapports d'analyse personnalisés, y compris le contrôle de qualité, la cartographie, l'appel de pics, l'annotation et la visualisation.

Référence

  1. Ryuichiro Nakato, Toyonori Sakata, Méthodes pour l'analyse ChIP-seq : Un flux de travail pratique et des applications avancées, Méthodes, Volume 187, 2021, Pages 44-53, ISSN 1046-2023.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut