Comment analyser les données de séquençage Hi-C

L'organisation tridimensionnelle (3D) du génome joue un rôle crucial dans la régulation des gènes, la réplication de l'ADN et la stabilité du génome. Hi-C, une technique puissante dérivée des méthodes de capture de conformation des chromosomes (3C), permet le cartographie à l'échelle du génome des interactions de la chromatine, fournissant des informations sur l'architecture spatiale du génome. Cependant, l'analyse des données Hi-C est une tâche complexe qui nécessite des outils et des approches bioinformatiques spécialisés. Cet article vise à fournir un guide complet sur la manière d'analyser les données de séquençage Hi-C d'un point de vue bioinformatique, en couvrant des étapes clés telles que le prétraitement des données, la normalisation, l'identification des interactions significatives et la modélisation 3D.

Prétraitement des données Hi-C

1.1 Contrôle de qualité et découpage des lectures

Les données de séquençage Hi-C brutes contiennent généralement des séquences d'adaptateurs, des bases de faible qualité et des duplicatas PCR. Des outils tels que FastQC et Trim Galore sont utilisés pour évaluer la qualité des lectures et effectuer le découpage. Par la suite, des outils d'alignement comme Bowtie2 ou BWA mappent les lectures sur le génome de référence.

Avant de plonger dans les subtilités de Hi-C analyse de donnéesIl est crucial de garantir la qualité des données de séquençage brutes. Cette étape initiale est essentielle pour l'analyse en aval, car des données de mauvaise qualité peuvent introduire des biais et des artefacts, conduisant à des résultats inexacts.

Évaluation de la qualité de lecture

Comme d'autres séquençage de nouvelle génération (NGS) Les données, les données de séquençage Hi-C brutes contiennent souvent des séquences d'adaptateurs, des bases de faible qualité et des doublons PCR. Ces problèmes peuvent avoir un impact significatif sur l'exactitude et la fiabilité de l'analyse ultérieure. Par conséquent, la première étape dans le traitement des données Hi-C est d'évaluer la qualité des lectures de séquençage.

FastQC est un outil largement utilisé pour le contrôle de la qualité des données de séquençage. Il fournit un rapport complet sur divers indicateurs de qualité, y compris :

1. Qualité de la séquence de base : Ce critère évalue la distribution des scores de qualité à chaque position de base dans les lectures. Des bases de haute qualité sont essentielles pour un mappage précis.

2. Scores de qualité par séquence : Cela fournit un aperçu de la qualité globale de chaque lecture.

3. Par contenu de séquence de base : Ce critère vérifie la distribution des nucléotides (A, T, C, G) à chaque position des lectures. Une distribution biaisée pourrait indiquer un biais de séquençage.

4. Contenu d'adaptateur : FastQC identifie la présence de séquences d'adaptateur, qui peuvent interférer avec le mappage des lectures.

En examinant ces métriques, les chercheurs peuvent identifier des problèmes potentiels dans les données de séquençage et décider des étapes de prétraitement appropriées.

Lecture de la taille

Une fois la qualité des lectures évaluée, l'étape suivante consiste à couper les lectures pour éliminer les bases de faible qualité et les séquences d'adaptateurs. Trim Galore est un outil populaire à cet effet. Il s'intègre à FastQC et fournit un pipeline automatisé pour le découpage et le contrôle de qualité. Trim Galore peut :

1. Éliminer les séquences d'adaptateurs : Les séquences d'adaptateurs sont souvent ligaturées aux extrémités des fragments d'ADN lors de la préparation de la bibliothèque. Si elles ne sont pas retirées, elles peuvent interférer avec le mappage des lectures.

2. Élaguer les bases de faible qualité : Les bases avec des scores de qualité faibles sont moins fiables et peuvent introduire des erreurs dans l'analyse. Trim Galore élaguera ces bases des extrémités des lectures.

3. Filtrer les lectures courtes : Après le découpage, certaines lectures peuvent devenir trop courtes pour être utiles. Trim Galore peut filtrer ces lectures courtes pour améliorer la qualité globale de l'ensemble de données.

1.2 Cartographie et filtrage des lectures Hi-C

La première étape de l'analyse des données Hi-C consiste à mapper les lectures de séquençage sur le génome de référence. Ce processus est compliqué par le fait que les bibliothèques Hi-C contiennent des lectures chimériques, qui sont des fragments résultant de la ligature de deux ou plusieurs régions génomiques non contiguës. Plusieurs stratégies peuvent être mises en œuvre pour gérer ces lectures chimériques :

1. Pré-tronquation : Cette méthode consiste à tronquer les lectures pour supprimer les séquences potentielles de jonction de ligation avant le mapping. Par exemple, si l'enzyme de restriction HindIII est utilisée, la séquence de jonction de ligation est "AAGCTAGCTT".

2. Cartographie itérative : Les lectures sont initialement tronquées à une courte longueur (par exemple, 25 pb) et mappées. Si le mappage n'est pas unique, des bases supplémentaires sont ajoutées de manière itérative jusqu'à ce que la longueur complète de la lecture soit atteinte.

3. Autoriser les alignements fractionnés : Certains algorithmes d'alignement, comme le mode bwa-sw de BWA, permettent des alignements fractionnés au sein d'une lecture. Cette approche identifie les lectures qui se mappent à plusieurs emplacements et ne conserve que celles avec des mappages sans ambiguïté.

4. Division si non mappé : Les lectures qui échouent à se mapper initialement sont vérifiées pour la présence d'un seul site de restriction. Si trouvé, la lecture est divisée en deux parties, et chaque partie est mappée indépendamment.

Après le mapping, les lectures sont filtrées en fonction de divers critères, y compris le nombre de discordances, la qualité du mapping (score MAPQ) et l'unicité. De plus, les lectures sont attribuées au site de restriction le plus proche, et celles qui ne correspondent pas à la taille de fragment attendue sont rejetées.

1.3 Filtrage au niveau des paires de lecture

Les paires de lectures Hi-C sont ensuite classées pour identifier les interactions informatives. Les filtres de brin éliminent les paires qui ne se conforment pas aux orientations attendues, telles que les paires vers l'intérieur ou vers l'extérieur. Les filtres de distance éliminent les paires intra-chromosomiques qui sont trop proches, ce qui est susceptible d'être des artefacts. Les paires de lectures dupliquées, qui peuvent résulter d'une amplification PCR, sont également supprimées pour éviter les biais.

1.4 Normalisation des données Hi-C

La normalisation est essentielle pour corriger les biais dans les données Hi-C, qui peuvent résulter de la profondeur de séquençage, du contenu en GC, de la capacité de mappage et d'autres facteurs. Plusieurs méthodes de normalisation sont disponibles :

Correction par facteur explicite : Cette approche modélise les biais de manière explicite. Par exemple, la méthode de Yaffe et Tanay corrige le contenu en GC, la mappabilité et la longueur des fragments [54]. HiCNorm utilise des modèles de régression pour obtenir des résultats similaires de manière plus efficace [55].

Équilibrage de matrice : Des méthodes comme ICE corrigent itérativement les biais pour obtenir une matrice équilibrée où chaque locus a une visibilité égale. Cette approche suppose que tous les loci sont également visibles en l'absence de biais.

Correction conjointe : Certaines méthodes, comme GDNorm, corrigent simultanément les biais et l'effet de distance génomique.

La normalisation améliore considérablement la reproductibilité des données Hi-C et renforce la détection des interactions significatives. Les cartes de contact normalisées sont plus lisses et plus interprétables que les données brutes.

Hi-C analysis pipelines.Figure 1. Vue d'ensemble des pipelines d'analyse Hi-C. (Ferhat Ay, et al., 2015)

Processing Hi-C Data.Figure 2. Diagramme de flux pour le traitement des données Hi-C. (Bryan R Lajoie, et al., 2015)

Identification des interactions significatives

2.1 Extraction des contacts significatifs

L'identification des interactions chromatiniennes significatives est cruciale pour comprendre l'architecture du génome. Plusieurs approches sont utilisées pour distinguer les interactions fonctionnelles des contacts aléatoires :

1. Ratio Observé/Attendu : Cette méthode regroupe les loci par distance génomique et calcule un ratio des contacts observés par rapport aux contacts attendus dans chaque bin.

2. Ajustements paramétriques : Ces méthodes supposent une distribution spécifique (par exemple, loi de puissance ou double exponentielle) pour modéliser la dépendance de la distance des comptes de contacts.

3. Ajustements non paramétriques : Des méthodes comme Fit-Hi-C utilisent des splines de lissage pour modéliser la dépendance à la distance sans supposer une distribution spécifique.

4. Détection des pics : HiCCUPS identifie les interactions significatives comme des pics dans la carte de contact, indiquant des boucles de chromatine stables.

2.2 Test de la colocalisation tridimensionnelle

Les données Hi-C fournissent un outil puissant pour étudier l'organisation 3D du génome, y compris si des ensembles spécifiques de loci se colocalisent dans l'espace. Des méthodes traditionnelles telles que le test hypergéométrique et les approches basées sur le rééchantillonnage sont largement utilisées pour évaluer la signification de la colocalisation. Ces méthodes comparent la fréquence observée des interactions entre loci à ce qui serait attendu par hasard, aidant à identifier des associations spatiales significatives. Cependant, elles échouent souvent à tenir compte de l'architecture génomique complexe, telle que la structure des compartiments et l'organisation des domaines, qui peuvent influencer de manière significative l'interprétation des résultats de colocalisation.

Pour remédier à ces limitations, des méthodes plus avancées ont été développées. Par exemple, les approches proposées par Paulsen et al. introduisent des modèles statistiques sophistiqués qui tiennent compte de facteurs supplémentaires. En intégrant des informations sur l'organisation génomique globale, y compris les compartiments A/B et les TAD, ces méthodes fournissent une évaluation plus précise de la signification de la colocalisation. Elles aident à distinguer les véritables interactions spatiales de celles qui peuvent simplement refléter des biais structurels sous-jacents dans le génome. Cela permet aux chercheurs d'obtenir des aperçus plus profonds sur les relations fonctionnelles et structurelles entre les loci génomiques, améliorant ainsi notre compréhension de la façon dont le génome en 3D est organisé et régulé.

Identification des domaines dans les données Hi-C

Les domaines d'association topologique (TAD) sont des régions spatialement confinées du génome où les interactions entre l'ADN se produisent plus fréquemment à l'intérieur du domaine que sur ses frontières. Ces structures sont essentielles pour organiser l'architecture de la chromatine, réguler l'expression des gènes et maintenir la stabilité génomique. Les TAD sont conservés à travers les types cellulaires et les espèces, bien que leurs frontières puissent varier de manière dynamique au cours du développement ou des états pathologiques.

Plusieurs méthodes computationnelles ont été développées pour identifier les TADs à partir des données d'interaction chromatinienne Hi-C ou d'autres données (par exemple, Micro-C, HiChIP). Ces méthodes diffèrent par leurs hypothèses sous-jacentes, leur résolution et leur sensibilité au bruit. Voici les principales approches :

1. Modèle de Markov caché à indice de directionnalité (DI HMM) : Cette méthode quantifie le déséquilibre entre les contacts en amont et en aval pour identifier les frontières des TAD.

2. Facteur de mise à l'échelle de distance : Cette approche identifie les frontières des TAD comme des pics dans un facteur de mise à l'échelle de distance qui mesure l'isolation.

3. Domaines multiscales et hiérarchiques : Des méthodes comme Armatus et HiCseg identifient les TAD à plusieurs résolutions et infèrent un ensemble de domaines consensuels.

4. Algorithme de la flèche : Cette méthode heuristique identifie de petits TAD en transformant la carte de contact en une matrice en forme de flèche et en recherchant des motifs caractéristiques.

Modélisation tridimensionnelle de la structure de la chromatine

4.1 Méthodes de consensus

Les méthodes de consensus sont conçues pour distiller les informations complexes provenant des données Hi-C en une seule structure 3D représentative de la chromatine. Cette approche est particulièrement utile pour fournir un modèle clair et interprétable qui capture l'arrangement spatial moyen des fibres de chromatine au sein du noyau cellulaire. L'une des méthodes de consensus les plus largement utilisées est la mise à l'échelle multidimensionnelle (MDS). La MDS fonctionne en convertissant les données de fréquence de contact des expériences Hi-C en distances spatiales entre les loci génomiques. En minimisant la différence entre les comptes de contact observés et les distances calculées dans l'espace 3D, la MDS génère un modèle qui fournit une bonne approximation de la structure globale de la chromatine. Cependant, la MDS a ses limites. Elle suppose une relation linéaire entre la fréquence de contact et la distance spatiale, ce qui peut ne pas toujours être vrai en raison de la nature complexe et dynamique des interactions de la chromatine. De plus, la MDS peut avoir du mal à capturer des détails plus fins et des variations locales dans la structure de la chromatine.

Pour remédier à ces limitations, des méthodes plus avancées telles que la Programmation Semi-Définie ont été développées. La PSD intègre des contraintes supplémentaires et des techniques de régularisation pour fournir des reconstructions plus précises de la structure de la chromatine. En tenant compte des propriétés physiques de la chromatine et en prenant en compte le bruit dans les données, la PSD peut générer un modèle 3D plus précis. Cependant, cette précision accrue a un coût computationnel significatif, rendant la PSD moins réalisable pour des ensembles de données à grande échelle.

4.2 Méthodes d'Ensemble

Alors que les méthodes de consensus fournissent un modèle unique, les méthodes d'ensemble adoptent une approche différente en générant plusieurs structures 3D pour capturer l'hétérogénéité cellulaire inhérente aux données Hi-C. Cela est particulièrement important car l'organisation de la chromatine peut varier considérablement entre les cellules individuelles, même au sein du même type cellulaire. L'échantillonnage par chaîne de Markov Monte Carlo (MCMC) est une approche probabiliste qui produit un ensemble de structures, chacune représentant une configuration plausible de la chromatine. En échantillonnant à partir d'une distribution de probabilité définie par les données Hi-C, le MCMC génère un ensemble de structures qui décrivent collectivement les données. Cette approche permet aux chercheurs de quantifier l'incertitude dans la structure de la chromatine et d'identifier les régions avec une forte variabilité. Cependant, l'échantillonnage MCMC peut être intensif en calcul, en particulier lors de la génération d'un grand nombre de structures.

Des méthodes d'ensemble plus avancées ont été développées pour améliorer l'efficacité computationnelle et la précision. Par exemple, les méthodes développées par Kalhor et al. peuvent simultanément inférer des milliers de structures, offrant une vue plus complète et détaillée de l'organisation de la chromatine. Ces méthodes avancées tirent parti de l'informatique parallèle et de techniques d'optimisation avancées pour explorer efficacement l'immense espace des configurations chromatiniennes possibles. En imitant la nature globale des expériences Hi-C, ces méthodes peuvent mieux capturer la nature dynamique et variable de la structure de la chromatine.

Visualisation des données Hi-C

Les outils de visualisation sont essentiels pour interpréter les données Hi-C et identifier des motifs. Le WashU Epigenome Browser et le Hi-C Data Browser permettent aux utilisateurs de visualiser les contacts à longue distance et de les intégrer avec d'autres données génomiques. Juicebox est une application de bureau qui fournit des cartes thermiques interactives et prend en charge plusieurs ensembles de données Hi-C. Des outils comme Genome3D et TADkit sont en cours de développement pour visualiser les structures chromatiniennes en 3D.

L'image suivante présente une carte thermique des données Hi-C, où la teinte de couleur représente la fréquence des interactions entre différentes régions du génome. La ligne diagonale dans l'image indique les auto-interactions, c'est-à-dire les interactions entre les mêmes emplacements génomiques. Les zones sombres en dehors de la diagonale représentent des interactions à longue distance, qui peuvent correspondre à des boucles de chromatine ou à des TAD. Grâce à ce type de visualisation, les chercheurs peuvent identifier de manière intuitive les motifs d'organisation spatiale au sein du génome, ce qui est crucial pour comprendre la régulation des gènes et la fonction génomique.

Processing Hi-C Data.Figure 3. Visualisation des données Hi-C. (Bryan R Lajoie, et al., 2015)

Conclusion

Le séquençage Hi-C a révolutionné notre capacité à étudier l'organisation tridimensionnelle du génome, offrant des aperçus sans précédent sur son architecture spatiale et ses implications fonctionnelles. Cependant, des défis importants subsistent dans l'analyse computationnelle des données Hi-C, en particulier dans les études comparatives à travers plusieurs ensembles de données, l'intégration avec des données multi-omiques et le traitement évolutif des expériences Hi-C à haute résolution et à cellule unique. Les avancées méthodologiques futures, y compris des outils pour décomposer les sous-populations cellulaires et résoudre les structures spécifiques aux haplotypes, seront cruciales pour découvrir la pleine complexité de l'organisation du génome dans divers contextes biologiques.

La bioinformatique joue un rôle indispensable dans la transformation des données brutes Hi-C en découvertes biologiques significatives. En s'appuyant sur les stratégies analytiques et les outils informatiques discutés dans ce guide, les chercheurs peuvent examiner systématiquement la relation entre la structure génomique en 3D et la régulation des gènes. À mesure que le domaine progresse, le développement d'approches bioinformatiques plus sophistiquées, efficaces et intégratives sera essentiel pour débloquer la prochaine génération de découvertes sur l'architecture et la fonction du génome.

Références :

  1. Ay, F., & Noble, W. S. (2015). Méthodes d'analyse pour étudier l'architecture 3D du génome. biologie génomique, 16 183. Désolé, je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir et je serai heureux de vous aider.
  2. Lajoie, B. R., Dekker, J., & Kaplan, N. (2015). Le guide du voyageur à travers l'analyse Hi-C : directives pratiques. Méthodes (San Diego, Californie), 72, 65–75. Désolé, je ne peux pas accéder à des liens externes.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut