Les interactions ADN-protéine sont largement utilisées pour élucider les mécanismes potentiels de la physiologie cellulaire. Le développement des essais d'immunoprécipitation de la chromatine (ChIP) a permis d'étudier de tels mécanismes. Avec de nouveaux développements, les technologies de séquençage profond (ChIP-Seq) ont émergé, offrant des avantages en termes de spécificité et de sensibilité.
Dans cet article, nous fournirons un aperçu détaillé des étapes impliquées dans l'analyse ChIP-seq et des meilleures pratiques pour garantir des résultats précis et fiables.
Flux de travail du séquençage ChIP et analyse des données (Ryuichiro Nakato)
La première étape de l'analyse ChIP-seq est le contrôle de la qualité des lectures de séquençage. Le contrôle de la qualité consiste à évaluer la qualité des lectures de séquençage brutes à l'aide d'outils tels que FastQC ou Trimmomatic. Le contrôle de la qualité garantit que les données sont de haute qualité et adaptées à l'analyse ultérieure. Après le contrôle de la qualité, les lectures sont tronquées pour éliminer les bases de faible qualité ou les adaptateurs à l'aide d'outils tels que Cutadapt ou Trimmomatic. Nous avons un processus rigoureux de gestion des données brutes qui élimine les lectures de faible qualité, les séquences d'adaptateurs et les lectures avec une faible qualité de mappage.
Le contrôle de qualité (CQ) du ChIP-seq est essentiel pour déterminer si les données de séquençage sont de haute qualité et peuvent être analysées plus avant. Certains des indicateurs particulièrement importants incluent :
RatioLe rapport des lectures séquencées reflétant la qualité des lectures et de l'ADN génomique.
Profondeur de lecture (nombre de lectures comparées après suppression des redondances). Le consortium ENCODE recommande un minimum de 10 millions de lectures appariées de manière unique comme valeur minimale des pics en mode aigu pour l'analyse des échantillons humains. Les marqueurs d'histones larges ont généralement un rapport signal/bruit plus faible et nécessitent plus de lectures (>40 millions pour les échantillons humains) comme valeur minimale pour l'appel des pics.
Complexité de la bibliothèque (ratio de lectures non redondantes). Allant de 0 à 1, ENCODE considère que la complexité du ratio de 10M de lectures devrait être > 0,8.
Coefficient de brin normalisé (NSC, calculé par SSP). métriques de rapport signal-bruit (S/N) pour des pics aigus et larges, avec des seuils recommandés de NSC > 5.0 (pics aigus) et NSC > 1.5 (pics larges), en utilisant la base de données publique ChIP-seq 10M pour une validation approfondie sur plusieurs espèces. Les échantillons d'entrée devraient avoir un faible S/N et donc les valeurs de NSC devraient être < 2.0.
Uniformité de fond (Bu). bu reflète la déviation de la distribution des lectures dans la région de fond, allant de 0 à 1. Une valeur bu faible (<0,8) indique que la distribution des lectures est plus concentrée que prévu ou présente une préférence, ce qui entraîne généralement de nombreux faux positifs parmi les pics obtenus. Pour les génomes avec une variation du nombre de copies étendue (par exemple, les cellules MCF-7), un seuil Bu plus détendu (>0,6) est nécessaire.
Écart de pic GC. Réfléchissant les préférences lors de l'immunoprécipitation et de l'amplification PCR, les données ChIP-seq présentent généralement des pics de GC similaires à ceux du génome de référence. (Le biais GC (par exemple, ~50 % chez les humains) est souvent observé (par exemple, >60 % chez les humains) en raison des préférences d'amplification PCR et/ou des pics faussement positifs provenant de régions "super-enrichies" associées aux îlots CpG.
L'étape suivante dans l'analyse ChIP-seq est l'alignement des lectures de séquençage au génome ou à la transcriptome de référence. L'alignement ou le mapping est généralement effectué à l'aide de logiciels d'alignement tels que Bowtie, BWA ou HISAT2. L'alignement garantit que les lectures sont mappées à l'emplacement génomique correct, et il est essentiel d'utiliser des paramètres d'alignement appropriés pour assurer un alignement précis. Nous utilisons différents outils de mapping en fonction de vos besoins spécifiques ou de votre projet, tels que la taille du génome, la profondeur de séquençage et vos questions de recherche.
Les pics sont des régions du génome où la protéine d'intérêt est liée. L'appel de pics est le processus d'identification des pics à partir des lectures de séquençage alignées. La liaison de différentes protéines à l'ADN peut être classée selon les caractéristiques de largeur et de distribution des pics, pic étroit (c'est-à-dire une séquence courte spécifique se produisant sur l'ADN avec une région de liaison courte) et pic large (qui est diffusément et continuellement distribué sur l'ADN avec un motif de pic large). Plusieurs algorithmes d'appel de pics sont disponibles, tels que MACS2, SICER et PeakSeq. Il est essentiel d'utiliser des paramètres d'appel de pics appropriés pour garantir un appel de pics précis. Les pics faussement positifs peuvent être éliminés à l'aide d'outils tels que HOMER ou BEDTools.
Après l'appel des pics, des mesures de contrôle de la qualité sont appliquées pour s'assurer que les pics sont de haute qualité et ne sont pas des faux positifs. Les mesures de contrôle de la qualité comprennent l'évaluation de la forme des pics, de l'enrichissement et de l'annotation des pics. HOMER peut être utilisé pour annoter les pics et identifier les motifs enrichis.
L'analyse des motifs examine des séquences spécifiques dans des pics ou des régions épigénomiques spécifiques (par exemple, des loci d'activateurs) et prédit de possibles sites de liaison de facteurs de transcription au sein des régions identifiées. En général, les méthodes d'analyse des motifs peuvent être divisées en deux types :
Les pics de ChIP-seq peuvent également être utilisés pour l'analyse d'enrichissement fonctionnel. Cette analyse séquence les gènes voisins comme cibles potentielles pour le marquage bidirectionnel ou le séquençage quantitatif et les regroupe par analyse GO ou KEGG.
L'analyse ChIP-seq est un processus complexe qui nécessite une compréhension approfondie et l'application de la biologie sous-jacente et des outils de bioinformatique. CD Genomics fournit des services de haute qualité. Services d'analyse ChIP-Seq aux chercheurs et aux entreprises du monde entier, y compris la conception de projets, l'acquisition de données, l'analyse des données brutes et la conception d'expériences en aval. Notre équipe professionnelle fournit des rapports d'analyse personnalisés, y compris le contrôle de qualité, la cartographie, l'appel de pics, l'annotation et la visualisation.
Référence