L'annotation précise des clusters dans Seurat joue un rôle crucial dans l'extraction d'informations précieuses à partir des ensembles de données de séquençage d'ARN à cellule unique (scRNA-seq). En associant les clusters détectés par des méthodes computationnelles à une pertinence biologique, les chercheurs peuvent mieux comprendre l'hétérogénéité cellulaire et la fonctionnalité. Ce guide propose un aperçu complet étape par étape des méthodes, outils et stratégies pour une annotation efficace des clusters, visant à obtenir des résultats fiables et de haute qualité dans les analyses de scRNA-seq.
Seurat offre une suite d'outils polyvalents couramment utilisés pour l'analyse des données scRNA-seq. En permettant le regroupement des cellules selon des profils d'expression génique, il a considérablement avancé l'étude des populations cellulaires. Néanmoins, le seul clustering ne suffit pas ; une annotation précise est essentielle pour interpréter les résultats computationnels de manière biologiquement significative. Ce processus relie les cadres mathématiques aux contextes biologiques, aidant les chercheurs à obtenir des aperçus plus profonds sur la diversité et les rôles cellulaires.
Qu'est-ce que le clustering dans Seurat ?
Le regroupement dans Seurat implique de regrouper les cellules en populations distinctes en fonction de leurs profils transcriptionnels. Ce regroupement est généralement visualisé à l'aide de techniques de réduction de dimensionnalité comme UMAP ou t-SNE, qui tracent des données de haute dimension dans un espace bidimensionnel. Les clusters représentent des groupes discrets de cellules qui correspondent souvent à des types cellulaires spécifiques ou à des états fonctionnels.
Pourquoi l'annotation est-elle importante ?
L'annotation donne un sens biologique à ces clusters computationnels, garantissant que les chercheurs peuvent tirer des informations exploitables de leurs données.
Sans une annotation précise, l'utilité biologique de l'analyse scRNA-seq est diminuée.
Ressource
Seurat offre une flexibilité dans l'annotation des clusters grâce à des approches manuelles, automatisées et intégrées.
L'annotation manuelle repose sur la connaissance préalable des gènes marqueurs. En comparant les gènes exprimés de manière différentielle (DEGs) au sein de chaque cluster avec des marqueurs établis, les chercheurs peuvent attribuer des étiquettes de type cellulaire.
Par exemple, un cluster avec une forte expression de CD3D et CD8A peut être annoté comme des cellules T cytotoxiques. Cette approche est souvent utilisée dans des études où les chercheurs ont des hypothèses spécifiques sur les types de cellules présents. Dans une étude, les chercheurs ont annoté manuellement des clusters à partir d'un ensemble de données scRNA-seq de cellules mononucléées du sang périphérique humain (PBMCs) en identifiant des clusters exprimant des marqueurs lymphocytaires connus tels que CD19 pour les cellules B et CD3D pour les cellules T, confirmant ainsi leur identité grâce à des profils d'expression de gènes marqueurs soutenus par la littérature (Zhao, J, et al., 2020).
Figure 1. Graphique UMAP des cellules immunitaires (Zhao, J, et al., 2020).
Il existe de nombreux logiciels et méthodes pour l'annotation des cellules uniques, et dès 2021, un article a résumé et comparé les avantages et les inconvénients de différents logiciels d'annotation des cellules uniques (Xie, B, et al., 2021).
Principe de l'annotation automatisée
Le principe de l'annotation automatique des types de cellules s'appuie sur des ressources de données publiques de séquençage d'ARN à cellule unique (scRNA-seq) et des algorithmes pour prédire directement les types de cellules sans nécessiter d'annotation manuelle. Il comprend principalement trois approches : l'apprentissage actif, qui repose sur des classificateurs ; l'apprentissage paresseux, basé sur la similarité avec les cellules voisines ; et l'apprentissage par marqueurs, qui utilise des gènes marqueurs et des fonctions de score. Ces méthodes sont entraînées sur des ensembles de données à grande échelle et emploient des algorithmes ou des mécanismes de score spécifiques pour attribuer rapidement et avec précision des types de cellules dans des données inconnues. Cela améliore considérablement l'efficacité analytique, le rendant adapté aux grands ensembles de données et aux analyses répétées, tout en réduisant la dépendance à l'expertise du domaine.
Figure 2. Flux de travail des méthodes d'identification des types de cellules traditionnelles et automatiques. (Xie, B, et al., 2021).
Méthode d'annotation automatisée Seurat
Cette méthode a été publiée pour la première fois dans Nature Biotechnology (Butler, A., et al., 2018). Les chercheurs ont d'abord utilisé l'Analyse de Corrélation Canonique (CCA) pour corriger les effets de lot causés par des facteurs non biologiques à travers différents échantillons. Étant donné que l'étude a été publiée relativement tôt, la CCA peut comporter le risque de sur-correction et peut être chronophage lors de l'intégration de grands ensembles de données. Par conséquent, dans les applications pratiques, des outils plus avancés, tels que Harmony ou d'autres méthodes d'intégration, peuvent être envisagés pour construire des ensembles de données de référence. Par la suite, les chercheurs ont identifié les types cellulaires uniques et leurs coordonnées UMAP (Approximation et Projection de Manifold Uniforme) dans l'ensemble de données de validation grâce à la comparaison des étiquettes de type cellulaire et à la projection. En essence, le cœur de cette méthode réside dans l'exploitation d'ensembles de données connus pour annoter des ensembles de données inconnus et mapper les informations UMAP des cellules de l'ensemble de données inconnu à l'ensemble de données connu, en veillant à ce que les mêmes types cellulaires des deux ensembles de données occupent des positions à peu près identiques dans le graphique UMAP.
L'ensemble de données de référence à gauche a essentiellement éliminé l'effet de lot des différentes méthodes de séquençage après la fusion CCA, et les différents types de cellules à droite sont clairement distingués.
Figure 3. CCA pour les données intégrées et la prédiction des types cellulaires.
Les gènes marqueurs sont essentiels dans l'annotation des clusters, servant d'identifiants pour des types cellulaires spécifiques.
La fonction FindAllMarkers() de Seurat identifie les gènes exprimés de manière différentielle (DEGs) pour chaque cluster. Ces gènes sont comparés à des marqueurs connus pour attribuer des identités biologiques. Par exemple :
Cette fonction génère une liste classée de gènes associés à chaque cluster.
| Type de cellule | Gènes marqueurs |
|---|---|
| Cellules T | CD3D, CD4, CD8A |
| Cellules B | MS4A1 |
| Monocytes | LYZ |
| Cellules NK | GNLY, NKG7 |
| Cellules dendritiques | FCER1A, CLEC10A |
La visualisation est cruciale pour interpréter et communiquer les résultats du séquençage d'ARN à cellule unique (scRNA-seq). Seurat prend en charge diverses techniques de visualisation pour afficher efficacement les clusters annotés, permettant aux chercheurs d'obtenir des informations sur des ensembles de données complexes.
Figure 4. UMAP pour les annotations de référence et les étiquettes transférées de la requête.
Figure 5. t-SNE pour les attributions de clusters (Kobak, et al., 2019).
L'annotation des clusters dans Seurat est une pierre angulaire de la recherche sur le séquençage d'ARN à cellule unique, permettant la découverte de la diversité et de la fonction cellulaires. En s'appuyant sur des gènes marqueurs, des outils avancés et des techniques de visualisation, les chercheurs peuvent révéler des insights biologiques profonds.
Références :