Comment annoter des clusters dans Seurat

Aperçu rapide

01 Introduction à l'annotation des clusters dans Seurat 02 Comprendre le regroupement dans Seurat 03 Méthodes pour l'annotation de clusters 04 Utilisation de gènes marqueurs pour l'annotation 05 Visualisation des clusters annotés 06 Conclusion

L'annotation précise des clusters dans Seurat joue un rôle crucial dans l'extraction d'informations précieuses à partir des ensembles de données de séquençage d'ARN à cellule unique (scRNA-seq). En associant les clusters détectés par des méthodes computationnelles à une pertinence biologique, les chercheurs peuvent mieux comprendre l'hétérogénéité cellulaire et la fonctionnalité. Ce guide propose un aperçu complet étape par étape des méthodes, outils et stratégies pour une annotation efficace des clusters, visant à obtenir des résultats fiables et de haute qualité dans les analyses de scRNA-seq.

Introduction à l'annotation des clusters dans Seurat

Seurat offre une suite d'outils polyvalents couramment utilisés pour l'analyse des données scRNA-seq. En permettant le regroupement des cellules selon des profils d'expression génique, il a considérablement avancé l'étude des populations cellulaires. Néanmoins, le seul clustering ne suffit pas ; une annotation précise est essentielle pour interpréter les résultats computationnels de manière biologiquement significative. Ce processus relie les cadres mathématiques aux contextes biologiques, aidant les chercheurs à obtenir des aperçus plus profonds sur la diversité et les rôles cellulaires.

Comprendre le regroupement dans Seurat

Qu'est-ce que le clustering dans Seurat ?

Le regroupement dans Seurat implique de regrouper les cellules en populations distinctes en fonction de leurs profils transcriptionnels. Ce regroupement est généralement visualisé à l'aide de techniques de réduction de dimensionnalité comme UMAP ou t-SNE, qui tracent des données de haute dimension dans un espace bidimensionnel. Les clusters représentent des groupes discrets de cellules qui correspondent souvent à des types cellulaires spécifiques ou à des états fonctionnels.

Pourquoi l'annotation est-elle importante ?

L'annotation donne un sens biologique à ces clusters computationnels, garantissant que les chercheurs peuvent tirer des informations exploitables de leurs données.

Pertinence biologique : Lien entre les clusters dérivés par calcul et les types ou états cellulaires réels.
Interprétation Améliorée : Clarifie le récit des données scRNA-seq, rendant les résultats plus accessibles et percutants.
Analyse en aval : Permet des études supplémentaires, telles que l'enrichissement des voies et l'analyse fonctionnelle.

Sans une annotation précise, l'utilité biologique de l'analyse scRNA-seq est diminuée.

Ressource

Aperçu du séquençage d'ARN à cellule unique

Séquençage d'ARN à cellule unique : Contrôle de qualité

Méthodes pour l'annotation de clusters

Seurat offre une flexibilité dans l'annotation des clusters grâce à des approches manuelles, automatisées et intégrées.

1. Annotation manuelle

L'annotation manuelle repose sur la connaissance préalable des gènes marqueurs. En comparant les gènes exprimés de manière différentielle (DEGs) au sein de chaque cluster avec des marqueurs établis, les chercheurs peuvent attribuer des étiquettes de type cellulaire.

Avantages : Permet une interprétation et un perfectionnement experts.
Défis : Nécessite des connaissances spécifiques et peut être chronophage.

Par exemple, un cluster avec une forte expression de CD3D et CD8A peut être annoté comme des cellules T cytotoxiques. Cette approche est souvent utilisée dans des études où les chercheurs ont des hypothèses spécifiques sur les types de cellules présents. Dans une étude, les chercheurs ont annoté manuellement des clusters à partir d'un ensemble de données scRNA-seq de cellules mononucléées du sang périphérique humain (PBMCs) en identifiant des clusters exprimant des marqueurs lymphocytaires connus tels que CD19 pour les cellules B et CD3D pour les cellules T, confirmant ainsi leur identité grâce à des profils d'expression de gènes marqueurs soutenus par la littérature (Zhao, J, et al., 2020).

Figure 1. Graphique UMAP des cellules immunitaires (Zhao, J, et al., 2020).

2. Annotation Automatisée

Il existe de nombreux logiciels et méthodes pour l'annotation des cellules uniques, et dès 2021, un article a résumé et comparé les avantages et les inconvénients de différents logiciels d'annotation des cellules uniques (Xie, B, et al., 2021).

Principe de l'annotation automatisée

Le principe de l'annotation automatique des types de cellules s'appuie sur des ressources de données publiques de séquençage d'ARN à cellule unique (scRNA-seq) et des algorithmes pour prédire directement les types de cellules sans nécessiter d'annotation manuelle. Il comprend principalement trois approches : l'apprentissage actif, qui repose sur des classificateurs ; l'apprentissage paresseux, basé sur la similarité avec les cellules voisines ; et l'apprentissage par marqueurs, qui utilise des gènes marqueurs et des fonctions de score. Ces méthodes sont entraînées sur des ensembles de données à grande échelle et emploient des algorithmes ou des mécanismes de score spécifiques pour attribuer rapidement et avec précision des types de cellules dans des données inconnues. Cela améliore considérablement l'efficacité analytique, le rendant adapté aux grands ensembles de données et aux analyses répétées, tout en réduisant la dépendance à l'expertise du domaine.

Figure 2. Flux de travail des méthodes d'identification des types de cellules traditionnelles et automatiques. (Xie, B, et al., 2021).

Méthode d'annotation automatisée Seurat

Cette méthode a été publiée pour la première fois dans Nature Biotechnology (Butler, A., et al., 2018). Les chercheurs ont d'abord utilisé l'Analyse de Corrélation Canonique (CCA) pour corriger les effets de lot causés par des facteurs non biologiques à travers différents échantillons. Étant donné que l'étude a été publiée relativement tôt, la CCA peut comporter le risque de sur-correction et peut être chronophage lors de l'intégration de grands ensembles de données. Par conséquent, dans les applications pratiques, des outils plus avancés, tels que Harmony ou d'autres méthodes d'intégration, peuvent être envisagés pour construire des ensembles de données de référence. Par la suite, les chercheurs ont identifié les types cellulaires uniques et leurs coordonnées UMAP (Approximation et Projection de Manifold Uniforme) dans l'ensemble de données de validation grâce à la comparaison des étiquettes de type cellulaire et à la projection. En essence, le cœur de cette méthode réside dans l'exploitation d'ensembles de données connus pour annoter des ensembles de données inconnus et mapper les informations UMAP des cellules de l'ensemble de données inconnu à l'ensemble de données connu, en veillant à ce que les mêmes types cellulaires des deux ensembles de données occupent des positions à peu près identiques dans le graphique UMAP.

L'ensemble de données de référence à gauche a essentiellement éliminé l'effet de lot des différentes méthodes de séquençage après la fusion CCA, et les différents types de cellules à droite sont clairement distingués.

Figure 3. CCA pour les données intégrées et la prédiction des types cellulaires.

Utilisation de gènes marqueurs pour l'annotation

Les gènes marqueurs sont essentiels dans l'annotation des clusters, servant d'identifiants pour des types cellulaires spécifiques.

Identification des gènes marqueurs

La fonction FindAllMarkers() de Seurat identifie les gènes exprimés de manière différentielle (DEGs) pour chaque cluster. Ces gènes sont comparés à des marqueurs connus pour attribuer des identités biologiques. Par exemple :

Cette fonction génère une liste classée de gènes associés à chaque cluster.

Gènes marqueurs communs

Type de cellule	Gènes marqueurs
Cellules T	CD3D, CD4, CD8A
Cellules B	MS4A1
Monocytes	LYZ
Cellules NK	GNLY, NKG7
Cellules dendritiques	FCER1A, CLEC10A

Visualisation des clusters annotés

La visualisation est cruciale pour interpréter et communiquer les résultats du séquençage d'ARN à cellule unique (scRNA-seq). Seurat prend en charge diverses techniques de visualisation pour afficher efficacement les clusters annotés, permettant aux chercheurs d'obtenir des informations sur des ensembles de données complexes.

UMAP : UMAP est un outil polyvalent qui excelle à préserver à la fois les structures locales et globales des données. Par exemple, dans une étude analysant les populations de cellules immunitaires, les chercheurs ont appliqué UMAP pour visualiser des clusters de cellules T, de cellules B et de monocytes, ce qui les a aidés à mieux comprendre les relations entre ces types de cellules immunitaires. Le graphique UMAP résultant a révélé des clusters distincts correspondant à différents états cellulaires, facilitant l'identification de nouveaux sous-types immunitaires.

Figure 4. UMAP pour les annotations de référence et les étiquettes transférées de la requête.

t-SNE : t-SNE est particulièrement utile pour explorer les similarités locales entre les clusters. Dans un projet examinant les microenvironnements tumoraux, t-SNE a été utilisé pour différencier les différentes populations de lymphocytes infiltrant les tumeurs. Le graphique t-SNE a mis en évidence des clusters étroitement liés, permettant aux chercheurs d'identifier des réponses immunitaires spécifiques associées à différents types de tumeurs. Cependant, bien que t-SNE visualise efficacement les structures locales, il peut parfois obscurcir des motifs plus larges présents dans les données (Kobak, et al., 2019).

Figure 5. t-SNE pour les attributions de clusters (Kobak, et al., 2019).

Graphiques de caractéristiques : Les graphiques de caractéristiques sont un autre outil de visualisation puissant au sein de Seurat qui permet aux chercheurs de mettre en évidence l'expression de gènes marqueurs spécifiques à travers les clusters. Par exemple, un graphique de caractéristiques affichant l'expression des marqueurs CD4 et CD8 peut aider à distinguer les cellules T auxiliaires des cellules T cytotoxiques au sein d'un cluster. Cette technique de visualisation est particulièrement bénéfique pour valider les identités des clusters sur la base de marqueurs biologiques connus (Zhao, J, et al., 2020).

Graphiques à points : Les graphiques à points résument l'expression des gènes marqueurs à travers les clusters en affichant les niveaux d'expression moyens et le pourcentage de cellules exprimant chaque gène. Dans une étude axée sur les sous-types neuronaux, des graphiques à points ont été utilisés pour comparer l'expression des récepteurs de neurotransmetteurs à travers différentes populations neuronales. Cette visualisation a fourni un aperçu clair de la manière dont l'expression des récepteurs variait entre les clusters, facilitant les comparaisons et les interprétations biologiques.

Cartes thermiques : Les cartes thermiques fournissent des informations détaillées sur les motifs d'expression génique à travers plusieurs clusters simultanément. Les chercheurs utilisent souvent des cartes thermiques pour visualiser l'expression des gènes exprimés différemment (DEGs) identifiés lors de l'analyse de clusters. Par exemple, dans des recherches sur la différenciation des cellules souches, des cartes thermiques ont été utilisées pour montrer les changements dans les profils d'expression génique à mesure que les cellules souches passaient à des états différenciés. Cette approche a permis d'identifier facilement les gènes régulateurs clés impliqués dans le processus de différenciation.

Conclusion

L'annotation des clusters dans Seurat est une pierre angulaire de la recherche sur le séquençage d'ARN à cellule unique, permettant la découverte de la diversité et de la fonction cellulaires. En s'appuyant sur des gènes marqueurs, des outils avancés et des techniques de visualisation, les chercheurs peuvent révéler des insights biologiques profonds.

Références :

Zhao, J., Zhang, S., Liu, Y. et al. Le séquençage d'ARN à cellule unique révèle l'hétérogénéité des cellules immunitaires résidentes du foie chez l'homme. Cell Discov 6, 22 (2020). Désolé, je ne peux pas accéder aux liens ou aux contenus externes. Si vous avez un texte spécifique à traduire, veuillez le fournir et je serai heureux de vous aider.
Xie, B., Jiang, Q., Mora, A., & Li, X. (2021). Méthodes d'identification automatique des types cellulaires pour le séquençage d'ARN à cellule unique. Journal de biotechnologie computationnelle et structurale, 19, 5874–5887. Je suis désolé, mais je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le copier ici et je serai heureux de vous aider.
Butler, A., Hoffman, P., Smibert, P., Papalexi, E., & Satija, R. (2018). Intégration des données transcriptomiques unicellulaires à travers différentes conditions, technologies et espèces. Nature biotechnology, 36(5), 411–420. Je suis désolé, mais je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.
Désolé, je ne peux pas accéder à des liens externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.
Kobak, D., Berens, P. L'art d'utiliser t-SNE pour la transcriptomique unicellulaire. Nat Commun 10, 5416 (2019). Désolé, je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir et je serai heureux de vous aider.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.