Le séquençage d'ARN à cellule unique (scRNA-seq) est une technique de séquençage de l'ARN d'une seule cellule qui s'est rapidement développée ces dernières années. Elle présente des avantages pour l'identification des cellules au niveau moléculaire et l'interprétation de l'hétérogénéité cellulaire, et elle est désormais largement appliquée dans la recherche médicale et biologique.
Au début des années 1990, la technologie de réaction en chaîne par polymérase (PCR) quantitative par fluorescence en temps réel pour un petit nombre de gènes dans une seule cellule est apparue. [1]La véritable scRNA-seq a été proposée en 2009 par Tang et al., qui a séquencé le transcriptome d'un petit nombre de cellules germinales primordiales de souris.[2]Depuis lors, une multitude de technologies de séquençage d'ARN unicellulaire (scRNA-seq) ont été développées, y compris le STRT-seq.[3], CEL-seq[4], SMART-seq[5], et les nanogouttelettes ultérieures, les technologies picowell et les technologies de codage in situ pour le séquençage à haut débit. Avant 2014, la plupart des plateformes de scRNA-seq étaient limitées à l'analyse de moins de 100 cellules, et le coût du séquençage était élevé. L'émergence de technologies ultérieures, telles que Drop-Seq[6] et inDrop[7] ont permis le séquençage à haut débit. En 2017, l'émergence de deux plateformes commerciales de séquençage à haut débit scRNA-seq, 10X Genomics et BD Rhapsody, a rendu le scRNA-seq plus largement utilisé, ces plateformes étant encore les plus couramment utilisées aujourd'hui. Depuis lors, des technologies scRNA-seq telles que Microwell-seq[8] et DNBelab C4[9] ont encore réduit les coûts de séquençage et augmenté le débit cellulaire. J'ai divisé les différentes technologies en deux catégories, à savoir, la technologie de séquençage par étiquette et la technologie de séquençage en longueur complète. En raison de l'itération des technologies, les méthodes de séquençage proposées à différentes étapes doivent avoir leurs avantages et leurs limites (Fig.1).
Fig.1 Chronologie du développement des technologies de transcriptome unicellulaire[10]
À la fois scRNA-seq et RNA-seq en vrac séquencer le transcriptome d'un échantillon et partager les processus en amont tels que l'extraction d'ARN, la transcription inverse en cDNA et la préparation de la bibliothèque pour le séquençage[11]Leur différence fondamentale réside dans l'échantillon : le scRNA-seq considère chaque cellule individuelle comme un échantillon séparé, tandis que le Bulk RNA-seq utilise un groupe de cellules comme un seul échantillon. Pour réaliser l'isolement des cellules uniques et la préparation de bibliothèques de transcriptomes, le scRNA-seq nécessite des instruments plus avancés et génère un volume de données significativement plus important, ce qui le rend plus coûteux. En raison de ses données à haute résolution, le scRNA-seq peut détecter des types cellulaires rares que le Bulk RNA-seq pourrait négliger, ce qui le rend particulièrement avantageux dans les études impliquant des types cellulaires complexes, tels que le microenvironnement tumoral (TME) (Fig.2). Chaque technique a ses forces, et la méthode appropriée doit être choisie en fonction de la question de recherche spécifique.
Fig. 2 scRNA-seq contre RNA-seq en vrac pour le profilage du TME[12].
L'analyse précise et efficace des données scRNA-seq est cruciale pour la recherche scientifique. Par conséquent, les méthodes d'analyse des données scRNA-seq sont continuellement développées et affinées. Ici, nous allons décrire les étapes typiques de l'analyse des données unicellulaires (Fig.3).
Fig. 3 Schéma d'un flux de travail typique d'analyse de RNA-seq à cellule unique[13].
Après avoir obtenu des données scRNA-seq, la première tâche consiste à effectuer un contrôle de qualité. Cette étape comprend l'évaluation de la qualité des lectures de séquençage, le filtrage des cellules de faible qualité et l'élimination de la contamination par l'ARN ambiant. Les outils de contrôle de qualité conçus pour les données RNA-seq en vrac, tels que Trimmomatic[14], Fastp[15]et Cutadapt[16], sont également adaptés pour le prétraitement des données brutes scRNA-seq. En général, lorsque je traite des données scRNA-seq téléchargées sur le web, j'utilise TrimGalore, un outil qui intègre Cutadapt et FastQC (https://github.com/FelixKrueger/TrimGalore). FastQC est un autre outil publié sur GitHub qui peut évaluer la qualité des lectures de séquençage (https://github.com/s-andrews/FastQC). Dans le processus d'analyse spécifique, j'utiliserai d'abord FastQC pour évaluer si les données brutes de séquençage nécessitent un contrôle qualité supplémentaire. Si l'évaluation montre des anomalies telles que la présence d'adaptateurs, des lectures de faible qualité ou un nombre excessif de fragments dupliqués, j'utilise ensuite TrimGalore pour le nettoyage des données. Après le contrôle qualité des lectures, l'étape suivante consiste à aligner les lectures de séquençage sur le génome de référence et à générer une matrice de données quantitatives. Pour ce processus, j'utilise des outils d'alignement et de quantification intégrés tels que CellRanger, développé par 10X Genomics.[17]Il fournit une solution complète pour générer des matrices de données de transcriptome unicellulaire à partir de données de séquençage brutes, offrant une méthode de traitement des données fiable pour la recherche unicellulaire.
Après avoir obtenu la matrice de données, nous devons généralement identifier les doublets et les cellules vides. Des nombres anormalement élevés de lectures et de gènes peuvent indiquer la présence de doublets. J'utilise souvent des outils de détection de doublets tels que DoubletDecon.[18] et DoubletFinder[19] pour exclure les doublets. De plus, une forte proportion de gènes mitochondriaux et un faible nombre de gènes suggèrent généralement une mauvaise qualité cellulaire. La contamination par l'ARN ambiant fait référence à l'ARN présent dans la suspension de cellules uniques qui est détecté avec l'ARN interne de la cellule lors de la formation des gouttelettes, même s'il n'est pas réellement présent dans la cellule. Pour éliminer cette contamination, j'utilise DecontX.[20] pour prédire rapidement et corriger la contamination par l'ARN ambiant, puis procéder à l'analyse en aval en utilisant la matrice de données corrigée.
La normalisation est la première étape du traitement des données matricielles scRNA-seq et impacte directement l'exactitude des résultats des analyses en aval. Une méthode de normalisation couramment utilisée suppose que chaque cellule a le même nombre initial de transcrits et normalise simplement les données en comptages par million (CPM). La normalisation logarithmique des données basées sur des codes-barres moléculaires, telle qu'implémentée dans Seurat, est l'une des méthodes les plus largement utilisées. [21]D'autres méthodes, telles que sctransform[22], BayNorm[23]et SCnorm[24]peut également être utilisé pour normaliser les données de scRNA-seq. Pour les méthodes de séquençage en pleine longueur comme SMART-seq, la longueur des transcrits est généralement prise en compte lors du traitement des données.
Actuellement, les données de scRNA-seq sont devenues très abondantes, et l'intégration efficace des données provenant de différents lots est devenue un nouveau défi. Les effets de lot impliquent des différences techniques qui surviennent lorsque les échantillons proviennent de différents lots, ce qui peut résulter de facteurs tels que des points temporels différents, des opérateurs différents, des protocoles de scRNA-seq variés ou des incohérences dans les échantillons de séquençage. Par conséquent, plusieurs méthodes ont été développées spécifiquement pour éliminer les effets de lot dans les données de scRNA-seq. Les méthodes d'intégration de données couramment utilisées incluent Seurat.[21], MNN[25], Harmonie[26], et Conos[27]J'utilise le plus souvent l'algorithme CCA inclus dans Seurat et Harmony. Harmony élimine les effets de lot tout en préservant les différences biologiques entre les deux échantillons, tandis que CCA applique une correction plus forte, ce qui peut potentiellement effacer les différences biologiques entre les échantillons.
Dans l'analyse des données unicellulaires, l'identification et l'annotation précises des types cellulaires sont une étape cruciale pour toutes les analyses ultérieures. Ce processus comprend des étapes telles que la sélection des caractéristiques, la réduction de dimensionnalité, le regroupement et l'annotation. La première étape de la réduction de dimensionnalité pour les données scRNA-seq est la sélection des caractéristiques, où l'ensemble de données est filtré pour ne conserver que les gènes qui contribuent de manière significative à la variabilité des données. Ces gènes retenus sont appelés gènes hautement variables.[28] (HVGs). Le nombre de HVGs varie généralement de 1 000 à 5 000 et doit être ajusté en fonction de la complexité du jeu de données. Après avoir sélectionné les HVGs, la dimensionnalité de la matrice d'expression scRNA-seq doit être réduite davantage, décrivant les données avec beaucoup moins de dimensions que le nombre de gènes, généralement en deux ou trois dimensions. Les méthodes de réduction de dimensionnalité courantes incluent désormais à la fois des approches linéaires et non linéaires, avec l'analyse en composantes principales.[29] (PCA) étant la méthode linéaire la plus populaire. L'analyse PCA est généralement utilisée comme étape de prétraitement pour la réduction de dimensionnalité non linéaire, et le nombre de composantes principales (PC) sélectionnées pour l'étape suivante peut affecter l'interprétation des résultats ultérieurs. Les méthodes de réduction de dimensionnalité non linéaire permettent la visualisation des données en deux ou trois dimensions. Les méthodes les plus couramment utilisées incluent l'incorporation de voisins stochastiques distribués selon une loi t.[30] (t-SNE) et approximation uniforme de variété et projection[31] (UMAP). Le but du regroupement de cellules est de rassembler les cellules en fonction de la similarité de leurs profils d'expression génique, afin d'obtenir des sous-populations biologiquement significatives. Le regroupement basé directement sur les distances matricielles est un processus d'apprentissage automatique non supervisé, avec le regroupement k-means étant une méthode largement utilisée.[25]L'annotation précise des clusters obtenus par clustering est une étape clé dans l'analyse des données scRNA-seq. Actuellement, ce processus est généralement réalisé à la fois par des méthodes d'annotation manuelle et automatique. L'annotation manuelle consiste à faire correspondre les gènes caractéristiques de chaque cluster avec la littérature publiée et les bases de données, puis à attribuer des identités cellulaires biologiquement significatives aux clusters. Par exemple, le tableau ci-dessous résume certains gènes emblématiques pour divers types cellulaires (Tableau 1).
| Annotation | Signature génétique | Références |
| Cellules T naïves | CD45RA, IL7R, CD27, CCR7, CXCR5 | [32] |
| T cytotoxique | GZMA, NKG7, GZMB, GZMK, FASLG, ITGA1, CXCR6 | [33] |
| Prolifération T | RRM2, TK1, CENPF, CENPM, MKI67, MCM4 | [34] |
| T précoce | CCR7, IL7R, TCF7, CD28 | [35] |
| Cellules mémoire centrales | CCR7, SELL, GPR183, GZMK | [36] |
| CCR7, IL7R, SELL, TCF7 | [37] | |
| Épuisé T | CTLA4, LAG3, HAVCR2, TRPS1, PDCD1, FABP5, TRPS1, CREM, CEBPD | [35] |
Tableau 1 : Gènes caractéristiques des types de cellules T courants
L'interprétation multifacette des cellules annotées fait partie de l'analyse en aval des données scRNA-seq. Les analyses courantes incluent les changements dans la composition cellulaire, l'analyse différentielle au niveau des gènes, l'inférence de trajectoire et l'analyse de la communication entre cellules.
Les changements dans la composition cellulaire font référence à la variation des proportions de différents types de cellules entre différents groupes (par exemple, groupes témoins et expérimentaux). Par exemple, il peut y avoir une augmentation de la proportion de cellules progénitrices de neutrophiles dans la moelle osseuse de souris sauvages porteuses de tumeurs.[38]En général, des visualisations telles que des graphiques à barres, des graphiques de surface ou des graphiques en secteurs sont utilisées pour présenter les variations des proportions cellulaires entre différents groupes.
L'analyse différentielle au niveau des gènes englobe plusieurs aspects, y compris le calcul des gènes exprimés différemment entre les groupes, l'analyse d'enrichissement des ensembles de gènes et l'inférence des réseaux de régulation des facteurs de transcription. Grâce à ces analyses, les différences d'expression génique dans divers contextes peuvent être caractérisées, révélant des changements au niveau des gènes. Pour mieux interpréter la signification biologique de ces gènes, les chercheurs les regroupent en fonction de processus biologiques communs. Ces ensembles de gènes proviennent généralement de bases de données telles que MSigDB.[39] et l'Ontologie Génétique[40], ainsi que des bases de données de voies comme KEGG[41] et Reactome[42]La fonction des gènes n'est pas réalisée de manière indépendante ; les facteurs de transcription jouent un rôle crucial dans la régulation de l'expression des gènes. En utilisant l'analyse du réseau de régulation des facteurs de transcription, les interactions entre les facteurs de transcription et d'autres gènes peuvent être révélées. Actuellement, il existe des outils spécialisés pour cette analyse basés sur le scRNA-seq, tels que SCENIC.[43].
Pour caractériser les changements continus entre les cellules, des modèles dynamiques d'expression génique doivent être construits, et ces méthodes sont appelées inférence de trajectoire (IT). L'IT organise les cellules en fonction des changements transcriptionnels, et ce chemin est considéré comme un pseudotemps dans le développement cellulaire.[44]Depuis la création de Monocle[45] pour TI, divers algorithmes ont été rapidement développés.
La communication intercellulaire fait référence aux interactions médiées par des récepteurs-ligands ou d'autres facteurs auxiliaires, qui sont cruciaux pour des processus biologiques tels que le développement cellulaire et la progression des maladies. Prédire la communication cellulaire nécessite la matrice d'expression scRNA-seq et les relations de couplage récepteur-ligand connues. Actuellement, les outils couramment utilisés à cet effet incluent CellphoneDB.[46], CellChat[47]et NicheNet[48].
Les applications de la scRNA-seq sont vastes, couvrant plusieurs domaines de la biologie et de la médecine. Ici, je résume ses applications en oncologie, immunologie, biologie du développement et neurosciences.
La scRNA-seq a été largement utilisée dans la recherche sur les tumeurs humaines, y compris les études sur l'hétérogénéité tumorale, le microenvironnement tumoral (TME) et les interactions cellulaires. L'hétérogénéité tumorale englobe les différences entre les tumeurs ainsi que les variations au sein d'une seule tumeur. Identifier avec précision l'hétérogénéité tumorale joue un rôle crucial dans le diagnostic et le traitement des maladies.[49]Durante et al. ont découvert une complexité génomique sub-clonale et des états transcriptionnels auparavant non reconnus dans le mélanome.[50]Le microenvironnement tumoral (MET) est un écosystème complexe composé de cellules cancéreuses, de diverses cellules non malignes, de matrice extracellulaire, de facteurs sécrétés et de vascularisation tumorale. Zheng et al. ont révélé que les cellules T et NK épuisées, les cellules T régulatrices, les macrophages activés sélectivement et les cellules dendritiques tolérantes dominent le MET dans le cancer de l'œsophage.[51]Le dialogue entre les macrophages et les Tregs contribue à une éventuelle suppression immunitaire au sein du microenvironnement tumoral (TME). Les interactions entre les cellules se concentrent principalement sur les interactions entre les cellules malignes et le TME ou les cellules provenant du TME. Wei Zhuo et al. ont découvert un mécanisme dans lequel la signalisation médiée par la Cadherine 11 entre les cellules de cancer gastrique et les fibroblastes favorise la métastase du cancer gastrique.[52].
La scRNA-seq peut être utilisée pour analyser de manière exhaustive différents types de cellules dans le système immunitaire, révélant des différences fonctionnelles parmi diverses cellules immunitaires dans les états de santé et de maladie. Parmi toutes les cellules immunitaires, les études de scRNA-seq sur les cellules T sont les plus nombreuses, car la maladie est souvent associée à des changements dans l'état des cellules T. Par des méthodes conventionnelles, des sous-ensembles classiques de cellules T ont été identifiés, y compris les cellules T naïves, mémoire et effectrices. Cependant, la scRNA-seq de ces sous-ensembles classiques a révélé de nouvelles découvertes sur l'épuisement.[53]cellules T cytotoxiques et immunosuppressives[54]En plus d'identifier de nouveaux types de cellules, le scRNA-seq peut également analyser l'impact des maladies sur les cellules immunitaires et aider à comprendre les mécanismes de la maladie. Par exemple, les cellules suppressives dérivées des myéloïdes, qui se différencient à partir des progéniteurs granulocyte-monocyte, s'accumulent en grand nombre au sein du microenvironnement tumoral (TME).[55]Ces cellules infiltrent les tumeurs et favorisent directement l'angiogenèse et la métastase, tout en supprimant les réponses immunitaires et en réduisant l'efficacité de l'immunothérapie.
La séquençage d'ARNc peut capturer les profils d'expression génique des cellules à différents stades de développement, aidant à construire des trajectoires de développement des cellules souches aux cellules spécialisées et révélant des réseaux de régulation génique au cours du processus de développement. Lars M. Steinmetz et al. ont réalisé une analyse unicellulaire des cellules souches hématopoïétiques et des progéniteurs (HSPC) de la moelle osseuse humaine, montrant que l'acquisition de destins spécifiques à une lignée est un processus continu.[56]Au cours du développement embryonnaire, le scRNA-seq peut être utilisé pour tracer les destins cellulaires et étudier comment différents tissus et organes se forment progressivement durant les premières étapes du développement. L'équipe de l'Institut Sanger a utilisé le scRNA-seq de tissu thymique pendant la phase embryonnaire pour révéler le développement du thymus humain et le processus de maturation des cellules T. Leur recherche a révélé que les changements correspondants dans les cellules stromales thymiques reflètent les tendances du développement des cellules T.[57].
Le cerveau contient différents types de neurones, chacun différant par sa morphologie, sa fonction et son expression génique. Le scRNA-seq peut identifier et classer ces neurones, révélant leurs motifs d'expression génique distincts.[58]En plus des neurones, le cerveau contient également un grand nombre de cellules gliales (telles que les astrocytes, les oligodendrocytes et les microglies). La séquençage d'ARN à cellule unique (scRNA-seq) peut révéler les caractéristiques d'expression génique de ces cellules non neuronales, aidant à comprendre leurs rôles dans le soutien, la protection et la réparation neuronale. Elizabeth et al. ont réalisé une analyse d'échantillons corticaux humains basée sur le séquençage d'ARN à cellule unique et ont purifié des sous-populations de cellules microgliales viables à partir de ces échantillons, découvrant que certaines sous-populations cellulaires étaient enrichies en gènes et en marqueurs d'ARN associés aux maladies neurodégénératives.[59].
En 2013, le scRNA-seq a été nommé Technologie de l'année par Nature Methods.[60]et en 2018, Science a nommé la scRNA-seq technologie révolutionnaire de l'année.[61], dont le développement rapide a considérablement élargi notre compréhension de l'hétérogénéité cellulaire et de la fonction cellulaire. Le développement rapide de cette technologie a considérablement élargi notre compréhension de l'hétérogénéité et de la fonction cellulaire. Les instruments de séquençage à cellule unique sont continuellement itérés et améliorés, tandis que le développement des outils de traitement des données progresse également rapidement, facilitant l'application généralisée de cette technologie en biologie et en médecine. Le scRNA-seq évolue vers des coûts plus bas, un débit plus élevé et des capacités multi-omiques, et il est prévu qu'il connaisse une utilisation encore plus large dans les domaines de la biologie et des produits pharmaceutiques à l'avenir.
Références :