Comment interpréter les données ATAC-Seq

Les chromosomes sont des structures formées par la condensation et le spiraling extensifs de la chromatine. Semblable aux fichiers compressés en informatique, cet état condensé n'est pas propice à la lecture (transcription). Par conséquent, avant la transcription pour la synthèse des protéines, la chromatine doit être décompressée ou ouverte pour rendre l'ADN lisible.

Parmi les différentes technologies épigénétiques, Essai de chromatine accessible aux transposases par séquençage (ATAC-seq) a émergé comme une méthode importante pour évaluer l'accessibilité de la chromatine à travers tout le génome. Cette technologie évalue directement la "lisibilité" de la chromatine, soulignant sa valeur d'application significative. Malgré son importance, de nombreuses ressources en ligne sur l'ATAC-seq se concentrent principalement sur les méthodes analytiques et les flux de travail, avec une discussion limitée sur les implications biologiques des résultats. Cette revue vise à aborder les aspects suivants :

1. Qualité de l'alignement et du séquençage

2. Détection des pics

3. Analyse en aval

4. Intégration avec les données multiomiques

5. Visualisation

Qualité de l'Alignement et de la Séquençage

Conformément au flux de travail analytique pour toutes les technologies de séquençage de nouvelle génération, la première étape dans Analyse ATAC-seq implique le mappage de courtes séquences de lectures à un génome de référence, suivi de mesures préliminaires de contrôle de qualité.

ATAC-Seq data analysis workflow.Figure 1 : Vue d'ensemble de l'analyse des données ATAC-Seq. (D'après galaxyproject.org)

Le diagramme ci-dessus illustre que chaque étape du processus d'analyse (indiquée par des flèches rouges) implique des mesures de contrôle de la qualité. Le contrôle de la qualité est essentiel pour obtenir des résultats analytiques précis. Dans l'ATAC-seq, le contrôle de la qualité se concentre principalement sur l'analyse des tags d'insertion au sein des bibliothèques et des signaux de site de début de transcription (TSS). Cela peut être compris à travers les détails suivants :

Quality control metrics showing peak distribution across the genome and patterns of nucleosome cleavage in ATAC-Seq.Figure 2 : Analyse de contrôle de qualité montrant la distribution des pics et les motifs de clivage des nucléosomes. (Kevin W. Trotter 2011)

Le premier pic observé avant 150 paires de bases représente la clivage des régions de chromatine ouverte. Ce pic est accompagné de petits pics périodiques en forme de dents de scie, avec environ 10 paires de bases entre chaque pic mineur. Le pic autour de 200 paires de bases est principalement attribué au clivage des nucléosomes. Comme mentionné précédemment, l'ADN enroulé autour d'un nucléosome mesure environ 147 paires de bases ; en raison de la variabilité de la précision de clivage, le pic observé se situe près de 200 paires de bases. Les pics suivants représentent la présence de deux, trois ou plusieurs nucléosomes, avec des hauteurs de pic décroissantes. Cette réduction indique une probabilité plus faible de clivage des nucléosomes situés plus loin de la région proximale de la chromatine.

Appel de Pic de l'ATAC-seq

Distinctions entre la signification des pics ATAC-seq et ChIP-seq

Les sommets identifiés par ATAC-seq et ChIP-seq représentent différents phénomènes biologiques et ont donc des significations distinctes :

Pics ChIP-seq

La ChIP-seq implique l'utilisation d'anticorps spécifiques à une protéine cible pour précipiter la protéine et les fragments d'ADN associés. Ces fragments d'ADN sont ensuite cartographiés sur le génome. Les sites de liaison de la protéine cible sont indiqués par des régions où les fragments d'ADN sont densément empilés. La visualisation de ces régions sous forme de graphiques à barres donne lieu à des pics discrets. En général, la ChIP-seq produit un pic prominent unique correspondant au site de liaison de la protéine d'intérêt.

Pics ATAC-seq

ATAC-seq repose sur la transposase Tn5 pour cliver les sites d'ADN accessibles au sein de la chromatine. La liaison de la transposase Tn5 à la chromatine est un événement stochastique. La détermination de si la profondeur de lecture d'un emplacement constitue un pic est effectuée à l'aide de logiciels tels que MACS (Analyse basée sur le modèle de ChIP-Seq). Lorsqu'un facteur de transcription se lie à l'ADN, il empêche la transposase Tn5 de couper à cet endroit spécifique, entraînant une région protectrice où les lectures sont réduites. Par conséquent, les régions liées par des facteurs de transcription dans ATAC-seq présentent généralement un pic caractéristique en forme de vallée.

ATAC-Seq read alignment with nucleosomes.Figure 3. Schéma des lectures ATAC-Seq par rapport aux nucléosomes. (Kia et al.. 2017.)

Impact de la construction du modèle sur l'appel de pics avec le logiciel MACS

Lors de l'utilisation du logiciel MACS pour l'appel de pics, la méthodologie utilisée pour construire le modèle influence considérablement les critères que MACS utilise pour identifier les pics.

MACS utilise un modèle statistique pour distinguer les véritables pics de signal du bruit de fond. Les paramètres définis lors de la construction du modèle, y compris le choix du contrôle d'entrée, le seuil d'enrichissement des pics et la sensibilité du modèle, affectent directement l'exactitude et la fiabilité de la détection des pics. Des variations de ces paramètres peuvent entraîner des différences dans le nombre et les caractéristiques des pics détectés, soulignant l'importance de calibrer soigneusement le modèle pour refléter les conditions expérimentales et les objectifs.

En optimisant ces paramètres, les chercheurs peuvent améliorer la spécificité et la sensibilité de la détection des pics, ce qui améliore l'interprétabilité et la pertinence biologique des résultats obtenus à partir de l'ATAC-seq et de techniques de séquençage à haut débit similaires.

Integration of ATAC-Seq with complementary sequencing technologies for comprehensive genomic analysis.Figure 4. Intégration de l'ATAC-seq avec d'autres technologies de séquençage

Analyse comparative de la détection des pics dans ChIP-seq et ATAC-seq

Les techniques ChIP-seq et ATAC-seq génèrent des motifs de liaison de lecture distincts qui peuvent se manifester sous forme de double pics dans les régions de facteur de transcription (TF) ou d'intégration de Tn5.

Dans le ChIP-seq, les pics observés reflètent les régions où les fragments d'ADN co-précipités avec des facteurs de transcription (TF) sont trouvés. Cependant, ces pics s'étendent souvent au-delà des véritables sites de liaison des TF en raison de l'inclusion de fragments d'ADN environnants, nécessitant un déplacement vers l'intérieur des positions de lecture pour représenter avec précision les sites de liaison des TF.

Inversement, dans l'ATAC-seq, un décalage est également nécessaire pour aligner les pics adjacents en un seul pic ; ce décalage doit être dirigé vers l'extérieur du centre du pic. Cet ajustement tient compte de l'enrichissement des lectures dans les régions flanquantes des sites de liaison des TF plutôt qu'au motif central.

Par exemple, dans le cas de CTCF (facteur de liaison CCCTC), les pics de ChIP-seq délimitent les régions de liaison de CTCF, avec la position centrale représentant le motif CTCF. En revanche, les lectures ATAC-seq sont enrichies dans les régions flanquantes du motif, comme l'illustre la figure jointe. L'axe horizontal de la figure représente les coordonnées génomiques, tandis que l'axe vertical indique l'intensité du signal ATAC-seq.

Depiction of CCCTC-binding factor.Figure 5. Illustration du facteur de liaison CCCTC (CTCF)

Analyse en aval

L'analyse en aval représente un axe principal de cet article, et elle est catégorisée en quatre aspects principaux : l'analyse des pics, l'analyse des motifs, le positionnement des nucléosomes et l'empreinte des facteurs de transcription.

Analyse de Pic

L'analyse des pics est subdivisée en deux approches principales :

Analyse des pics différentiels basée sur des ensembles de pics prédéfinis : Cette méthode consiste à identifier des pics à partir d'un ensemble prédéfini, puis à effectuer une analyse différentielle basée sur des données de séquençage d'ARN (RNA-seq) ou d'autres méthodes analogues. Il est recommandé de regrouper tous les échantillons afin d'identifier un ensemble de pics non biaisé et cohérent avant de procéder à des analyses supplémentaires.

Approche de la fenêtre glissante : Cette méthode fonctionne avec moins d'hypothèses, offrant ainsi une analyse plus impartiale. Cependant, il est à noter que cette approche peut entraîner un taux de faux positifs plus élevé, nécessitant un filtrage préliminaire plus strict.

Annotation de Pic

L'annotation des pics implique de mapper les pics aux régions génomiques fonctionnelles—telles que les exons, les promoteurs, les amplificateurs et les régions non traduites (UTR)—pour élucider les fonctions régulatrices des pics sur les gènes. Les pics typiques d'ATAC-seq se situent généralement au sein des éléments cis-régulateurs. Après l'annotation des pics, une analyse d'enrichissement fonctionnel peut être réalisée sur la liste de gènes résultante pour explorer davantage la signification biologique des pics identifiés.

Motifs

Les facteurs de transcription (TF) influencent généralement la transcription en se liant à des motifs situés dans des régions de chromatine ouverte. Ainsi, l'analyse des motifs et des sites de liaison des TF constitue un élément crucial de l'analyse ATAC-seq. Le génome humain comprend environ 1 600 facteurs de transcription distincts, dont les sites de liaison sont dispersés dans tout le génome. L'analyse de l'activité et de l'accessibilité des différents motifs facilite l'identification et l'interprétation des processus régulateurs biologiques clés.

Annotation : De nombreuses bases de données fournissent des motifs prédites expérimentalement ou algorithmiquement à des fins d'annotation, y compris CIS-BP et RegulonDB. Ces ressources sont essentielles pour l'annotation des motifs.

Enrichissement : Une fois les motifs identifiés, le calcul de leur fréquence dans les régions de pics ouverts permet de détecter des motifs enrichis, qui peuvent ensuite être utilisés pour prédire ou associer l'activité des facteurs de transcription (TF).

Empreintes TF

Une approche alternative pour décrire la régulation des facteurs de transcription (TF) implique l'utilisation de "footprints". La liaison active des TF entraîne l'échec de la liaison de la transposase Tn5 lors de la préparation de la bibliothèque ATAC-seq, ce qui conduit à la formation d'un creux (ou "footprint") au site de liaison du TF dans le pic. Il est à noter que l'identification précise des footprints est difficile et dépend d'une profondeur de séquençage élevée. De plus, de nombreux algorithmes actuellement utilisés pour l'analyse des footprints des TF n'ont pas été spécifiquement développés pour l'ATAC-seq, ce qui peut introduire des biais dans les résultats.

Positionnement des nucléosomes

Dans un contexte typique ensembles de données ATAC-seqDes fragments plus longs représentent souvent des régions associées à plusieurs nucléosomes. Plusieurs méthodes exploitent cette information pour détecter des régions enrichies en nucléosomes. Cependant, en raison de la couverture de lecture plus faible dans ces régions par rapport aux zones de chromatine ouverte, de telles analyses peuvent être particulièrement difficiles.

Visualisation

Visualisation des données génomiques est souvent réalisé par la représentation de pics et de cartes de chaleur centrées sur les TSS. De telles visualisations sont essentielles pour interpréter l'accessibilité de la chromatine et identifier les éléments régulateurs.

Visualisation des pics et des cartes thermiques

La représentation graphique implique généralement de tracer des pics autour du TSS, chaque ligne du graphique représentant un transcrit distinct. Ces outils visuels permettent d'identifier des régions de chromatine ouverte, des activateurs potentiels ou des silencers.

Les régions promotrices sont souvent délimitées dans une plage couramment utilisée de 2,5 kilobases (kb) à partir du TSS. Étant donné que les régions promotrices manquent de limites bien définies, cette plage fournit une approximation pratique pour leur identification.

En plus de visualiser des données centrées sur le TSS, les représentations graphiques peuvent également être centrées sur des pics géniques spécifiques, comme illustré ci-dessous :

De plus, il est courant de visualiser des régions spécifiques de l'ADN dans les articles, comme le gène RAC2 illustré ci-dessous :

Cette version maintient un ton formel et précis, adapté à la communication scientifique.

Intégration de l'ATAC-seq avec le ChIP-seq et le RNA-seq

La question de savoir si ATAC-seq seul peut remplacer ChIP-seq est abordé de manière négative. En pratique, l'ATAC-seq est souvent combiné avec d'autres technologies de séquençage pour réaliser des analyses complètes.

ATAC-seq combiné avec RNA-seq :

Typiquement, le RNA-seq est réalisé avant l'ATAC-seq. Les gènes exprimés de manière différentielle identifiés par RNA-seq peuvent être étudiés plus en détail à l'aide de l'ATAC-seq pour effectuer une analyse de motifs, ce qui aide à identifier les facteurs régulateurs associés aux gènes cibles. Une validation expérimentale ultérieure peut alors être réalisée pour confirmer ces résultats.

Alternativement, l'ATAC-seq peut être utilisé pour examiner l'accessibilité de la chromatine, dans le but de déterminer si des changements dans l'état de la chromatine sont corrélés à des niveaux de transcrits accrus. Cette approche permet à l'RNA-seq d'identifier les gènes correspondant aux transcrits enrichis, facilitant l'analyse fonctionnelle de ces gènes et leur intégration avec la validation phénotypique. Cela crée un cadre complet englobant la régulation épigénétique, l'expression, la fonction et le phénotype.

ATAC-seq combiné avec ChIP-seq :

ChIP-seq est souvent utilisé après l'ATAC-seq pour fournir une validation supplémentaire. Par exemple, après avoir identifié des pics avec l'ATAC-seq et détecté des motifs associés à des facteurs de transcription spécifiques, le ChIP-seq peut être utilisé pour localiser les sites de liaison de ces facteurs de transcription. Cette approche permet de déterminer si les facteurs de transcription interagissent avec des régions promotrices ou des régions d'activateurs.

De plus, l'avènement du séquençage d'ARN à cellule unique (single-cell RNA-seq) a conduit au développement de techniques émergentes telles que le scATAC-seq combiné au scRNA-seq, qui permet d'examiner l'accessibilité de la chromatine au niveau de la cellule unique.

Construction de réseaux réglementaires

L'ATAC-seq permet d'identifier les régions ouvertes pour les motifs de facteurs de transcription (TF) à travers l'ensemble du génome, facilitant la découverte d'éléments régulateurs tels que les enhancers qui peuvent être situés à des distances significatives de leurs gènes cibles. Cette capacité est cruciale pour construire des réseaux régulatoires complexes, y compris les interactions enhancer-promoteur.

Références :

  1. Buenrostro JD, Wu B, Chang HY, Greenleaf WJ. ATAC-seq : une méthode pour évaluer l'accessibilité de la chromatine à l'échelle du génome. Curr Protoc Mol Biol2015 ; 109 : 21.29.1-21.29.9.
  2. Bates SE. Thérapies épigénétiques pour le cancer. N Engl J Med. 2020;383(7):650-663.
  3. Yan F, Powell DR, Curtis DJ, et al. De la lecture à l'insight : Le guide du voyageur pour l'analyse des données ATAC-seq. Genome Biol2020;21:22.
  4. Smith JP, Sheffield NC. Approches analytiques pour l'analyse des données ATAC-seq. Curr Protoc Hum Genet. 2020.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut