Séquençage RNA-Seq à cellule unique vs. en vrac : Lequel choisir ?
Séquençage RNA-Seq à cellule unique vs. en vrac : Lequel choisir ?
La différence fondamentale entre le scRNA-seq et le bulk RNA-seq est la résolution. Le bulk RNA-seq mesure l'expression génique moyenne à travers des milliers à des millions de cellules, produisant un seul profil d'expression par échantillon. Le scRNA-seq mesure l'expression dans des cellules individuelles, générant des milliers de profils d'expression par échantillon, un pour chaque cellule capturée.
Cette différence de résolution détermine les types de questions biologiques que chaque méthode peut aborder. Le scRNA-seq est le choix approprié lorsque la question de recherche implique : l'identification et la caractérisation de populations cellulaires rares (<5 % des cellules totales), la dissection de l'hétérogénéité cellulaire au sein d'un tissu, la reconstruction de trajectoires de développement ou de relations de lignée, la caractérisation du microenvironnement tumoral à une résolution de cellule unique, ou l'identification de réponses spécifiques aux traitements selon le type cellulaire. Le Bulk RNA-seq est le choix approprié lorsque la question implique la comparaison des niveaux d'expression moyens entre les conditions dans des populations cellulaires homogènes, ou lorsque la recherche nécessite un haut débit à travers de nombreux échantillons et qu'une résolution selon le type cellulaire n'est pas requise.
La décision entre les deux méthodes dépend également du coût et de la complexité. Un expérience standard de scRNA-seq coûte 5 à 10 fois plus par échantillon que le RNA-seq en vrac, et l'analyse des données nécessite des outils informatiques spécialisés ainsi qu'un stockage et une mémoire considérablement plus importants. Pour les projets où la résolution par type cellulaire n'est pas essentielle, le RNA-seq en vrac est le choix le plus efficace. Pour les projets où l'hétérogénéité cellulaire est la question centrale, le scRNA-seq fournit des informations auxquelles les méthodes en vrac n'ont pas accès.
Conseils pratiques — quand utiliser chaque méthodePour un chercheur étudiant les réponses immunitaires à un vaccin, le séquençage d'ARN en vrac (bulk RNA-seq) des cellules T triées à partir d'échantillons de sang offre une approche rentable pour mesurer les changements transcriptionnels dans une population cellulaire définie. Pour un chercheur étudiant l'hétérogénéité tumorale dans une biopsie de tumeur solide, le séquençage d'ARN à cellule unique (scRNA-seq) est la seule méthode capable de résoudre le mélange de cellules cancéreuses, de cellules stromales, de cellules immunitaires et de cellules endothéliales présentes dans l'échantillon. Le choix devrait être guidé par la nécessité de résolution à l'échelle cellulaire pour répondre à la question biologique ou si celle-ci peut être abordée avec des moyennes au niveau de la population.
Figure 1. Comparaison entre scRNA-seq et RNA-seq en vrac — résolution, coût et complexité des données
Aperçu comparatif de l'ARN-seq unicellulaire et de l'ARN-seq en vrac montrant les différences de résolution (cellules individuelles contre moyennes tissulaires), de coût par échantillon, de complexité des données et des applications de recherche appropriées pour chaque méthode.
Facteurs de conception expérimentale qui déterminent la qualité des données
La qualité des données de scRNA-seq est déterminée par les décisions prises avant le début du séquençage. Plusieurs facteurs affectent directement le nombre et la qualité des cellules récupérées ainsi que la fiabilité de l'analyse en aval.
Préparation d'échantillons et dissociation cellulaireLa qualité des données unicellulaires dépend de manière critique de la qualité de la suspension unicellulaire. Les méthodes de dissociation des tissus doivent préserver la viabilité cellulaire tout en libérant des cellules individuelles. Les temps et températures de digestion enzymatique doivent être optimisés pour chaque type de tissu : une digestion excessive provoque des réponses de stress qui altèrent l'expression génique, tandis qu'une digestion insuffisante produit des agrégats et des doublets. Pour les échantillons congelés ou fixés, des protocoles spécifiques sont nécessaires pour récupérer des noyaux ou de l'ARN intacts. Pour des types d'échantillons difficiles tels que le tissu adipeux, l'os ou le matériel végétal, des protocoles de dissociation spécialisés ont été développés et doivent être testés avant de s'engager dans une expérience à grande échelle. Services de séquençage unicellulaire peut fournir des recommandations de protocole en fonction du type d'échantillon et des objectifs de recherche.
Numéro de cellule cibleLe nombre de cellules à capturer dépend de la fréquence attendue de la population cellulaire d'intérêt. Pour identifier des types cellulaires rares (<1 % du total des cellules), il est recommandé de cibler 10 000 à 20 000 cellules par échantillon pour garantir une représentation suffisante. Pour caractériser les principaux types cellulaires dans un tissu, 3 000 à 5 000 cellules peuvent être suffisantes. Les stratégies de multiplexage utilisant le marquage des cellules ou des index étiquetés par lipides peuvent augmenter le débit et réduire le coût par échantillon en traitant plusieurs échantillons dans une seule réaction de capture. Le compromis est une complexité technique accrue dans le démultiplexage et un risque potentiel de contamination entre échantillons.
Profondeur de séquençagePour l'analyse au niveau des gènes (détection des gènes exprimés et de leur abondance relative), 20 000 à 50 000 lectures par cellule sont généralement suffisantes. Pour l'analyse au niveau des isoformes ou la détection de gènes faiblement exprimés, 50 000 à 100 000 lectures par cellule peuvent être nécessaires. Le coût total de séquençage est déterminé en multipliant le nombre de lectures par cellule par le nombre de cellules : une expérience de 10 000 cellules à 50 000 lectures par cellule nécessite 500 millions de lectures, comparable à un projet de séquençage RNA-seq en vrac de 15 à 20 échantillons en termes de coût de séquençage.
Sélection de la plateformeLa plateforme 10x Genomics Chromium est le système le plus largement adopté, prenant en charge l'expression génique 3', le profilage immunitaire 5' et les lectures multi-omiques (CITE-seq, Feature Barcode). Son adoption généralisée signifie un large soutien communautaire, des protocoles validés et une compatibilité avec la plupart des outils d'analyse en aval. Les méthodes basées sur des plaques comme SMART-seq offrent une couverture complète des transcrits et une sensibilité plus élevée par cellule, les rendant adaptées à la détection d'isoformes et aux études nécessitant une couverture complète des transcrits, mais le débit est limité à des centaines de cellules plutôt qu'à des milliers. Le choix entre les méthodes basées sur des gouttelettes et celles basées sur des plaques doit être guidé par le nombre de cellules requis : gouttelettes pour des milliers de cellules à une résolution inférieure par cellule, plaques pour des centaines de cellules à une résolution supérieure par cellule. Services de séquençage unicellulaire peut prendre en charge à la fois des plateformes basées sur des gouttelettes et des plateformes basées sur des plaques en fonction des exigences du projet.
Réplicats biologiquesAu minimum, trois réplicats biologiques par condition sont recommandés pour les expériences de scRNA-seq afin de tenir compte de la variabilité biologique entre les échantillons. Le regroupement des échantillons avant le séquençage avec le marquage cellulaire peut augmenter le débit tout en maintenant l'information sur les réplicats. Contrairement au RNA-seq en vrac où chaque échantillon produit un profil d'expression, le scRNA-seq produit des milliers de profils par échantillon, ce qui peut créer une fausse impression de puissance statistique — même avec des milliers de cellules, les résultats d'un seul échantillon ne peuvent pas être généralisés car ils peuvent refléter des effets spécifiques à l'échantillon plutôt qu'à la condition.
Figure 2. Conception expérimentale de la scRNA-seq — paramètres clés et plages recommandées
Légende : Principaux paramètres de conception expérimentale pour le scRNA-seq montrant les plages recommandées pour la préparation des échantillons, le nombre de cellules cibles, la profondeur de séquençage, le choix de la plateforme (10x vs SMART-seq) et les réplicats biologiques.
Le pipeline d'analyse scRNA-Seq standard
Le pipeline d'analyse standard de scRNA-seq suit une séquence structurée de six étapes, chacune avec des choix d'outils et des décisions de paramètres spécifiques : contrôle de qualité et filtrage des cellules, normalisation, correction de lot, réduction de dimensionnalité et clustering, annotation des types cellulaires, et analyse biologique en aval. Chaque étape produit des résultats intermédiaires qui doivent être inspectés avant de passer à la suivante — sauter cette étape d'inspection est une cause fréquente de mauvais résultats finaux.
la plupart des analyses scRNA-seq sont effectuées dans l'un des deux principaux écosystèmes logiciels : Seurat (R/Bioconductor) ou Scanpy (Python). Le choix entre eux est principalement une question de préférence de langage de programmation et de compatibilité d'écosystème — les deux produisent des résultats comparables pour des flux de travail standard. Seurat offre plus de fonctionnalités intégrées pour l'intégration et la visualisation, y compris la classe d'objet intégrée Seurat qui suit les métadonnées à travers les étapes d'analyse. Scanpy offre une plus grande flexibilité pour l'analyse personnalisée et est mieux adapté aux très grands ensembles de données (>100 000 cellules) en raison de ses structures de données plus économes en mémoire (objets AnnData basés sur un backend HDF5). Pour les groupes de recherche sans expertise bioinformatique dédiée, services de bioinformatique peut fournir des pipelines d'analyse scRNA-seq standardisés qui gèrent le contrôle de qualité, la normalisation, l'intégration et l'annotation avec des paramètres documentés. Services d'analyse des données génomiques peut également prendre en charge des analyses en aval personnalisées, y compris des études sur le pseudotemps et la communication entre cellules.
QC et filtrage des cellules — Seuils quantifiables
Le contrôle de qualité dans le scRNA-seq implique le filtrage des cellules qui sont susceptibles d'être des artefacts techniques plutôt que de véritables signaux biologiques. Trois métriques sont utilisées comme filtres QC standards :
- Nombre de gènes uniques (nFeature_RNA)Les cellules avec moins de 200 à 500 gènes détectés sont généralement des gouttelettes vides ou des cellules mortes. Les cellules avec plus de 5 000 à 7 500 gènes peuvent être des doublets (deux cellules capturées dans une seule gouttelette). Les seuils doivent être ajustés en fonction du type de cellule — les cellules plus grandes expriment naturellement plus de gènes que les cellules plus petites.
- Pourcentage de lectures mitochondriales (percent.mt)Un contenu mitochondrial élevé (>15-20%) indique des cellules avec des membranes endommagées qui ont perdu de l'ARN cytoplasmique. Ces cellules doivent être éliminées car leurs profils d'expression sont dominés par des transcrits mitochondriaux et ne reflètent pas le véritable transcriptome de la cellule.
- Détection de doublonsLa détection de doublets computationnels à l'aide d'outils comme DoubletFinder, scDblFinder ou scrublet identifie les cellules dont les profils d'expression ressemblent à un mélange de deux types cellulaires distincts. Un taux de doublets de 3 à 8 % est typique pour des captures standard 10x. Des taux plus élevés indiquent un chargement cellulaire suboptimal.
Ces seuils devraient être visualisés avant et après le filtrage à l'aide de diagrammes en violon et de diagrammes de dispersion. La décision de filtrer doit être basée sur la distribution de ces métriques dans toutes les cellules, et non sur des seuils fixes arbitraires. Une population cellulaire avec un contenu mitochondrial naturellement élevé (par exemple, des cellules rénales ou hépatiques) devrait avoir des seuils de filtrage différents de ceux des cellules immunitaires. Après filtrage, le pourcentage de cellules conservées doit être documenté dans le rapport d'analyse — retirer plus de 30-40 % des cellules justifie un examen du protocole de dissociation ou de la qualité de l'échantillon.
Suppression des gouttelettes videsUne étape de prétraitement critique spécifique au séquençage d'ARN unicellulaire basé sur des gouttelettes (scRNA-seq) consiste à distinguer les gouttelettes vides (contenant de l'ARN ambiant mais pas de cellule) des cellules authentiques. Le filtrage par défaut de CellRanger utilise un seuil de comptage de l'UMI, mais des méthodes plus sophistiquées comme EmptyDrops (package DropletUtils) utilisent un test statistique pour identifier les codes-barres avec des profils d'expression qui diffèrent de l'arrière-plan d'ARN ambiant. L'utilisation d'EmptyDrops plutôt qu'un seuil fixe d'UMI permet de récupérer de petites cellules avec un faible contenu en ARN et d'éliminer la contamination par l'ARN de fond des cellules restantes.
Figure 3. Seuils de filtrage QC scRNA-seq — nombre de gènes, pourcentage mitochondrial et détection de doublons
Légende : Seuils de contrôle de qualité pour le scRNA-seq montrant des graphiques en violon et des nuages de points pour le nombre de gènes uniques (nFeature_RNA), le pourcentage de lectures mitochondriales (percent.mt) et la détection de doublets computationnels, avec des plages de filtrage recommandées pour chaque métrique.
Normalisation et correction par lots — Choisir la bonne méthode
La normalisation dans le scRNA-seq doit tenir compte à la fois de la variation technique (différences d'efficacité de capture, profondeur de séquençage entre les cellules) et de la variation biologique (différences de taille des cellules et de contenu en ARN).
Méthodes de normalisationSCTransform (Seurat) est la méthode la plus largement utilisée pour la normalisation des scRNA-seq. Elle modélise les comptes UMI en utilisant une régression binomiale négative régularisée qui prend en compte la profondeur de séquençage tout en préservant la variation biologique. SCTransform identifie les sources techniques de variation plus efficacement que la log-normalisation et produit des résidus prêts pour l'analyse en aval. Elle identifie également les gènes hautement variables dans le cadre du processus de normalisation, éliminant ainsi le besoin d'une étape de sélection HVG séparée. Le compromis est le coût computationnel : SCTransform est plus lent que la log-normalisation et peut nécessiter 16 à 32 Go de RAM pour des ensembles de données dépassant 20 000 cellules.
La méthode scran utilise une stratégie basée sur le regroupement pour estimer les facteurs de taille pour des groupes de cellules, produisant des comptages normalisés qui sont comparables entre les cellules. Elle est efficace sur le plan computationnel et fonctionne bien pour des ensembles de données avec des proportions de types cellulaires équilibrées. La log-normalisation (log(CPM + 1)) est l'approche la plus simple mais ne tient pas compte de la relation entre la profondeur de séquençage et la variance d'expression génique inhérente aux données scRNA-seq, ce qui en fait la méthode la moins recommandée.
Correction par lotsLorsque plusieurs échantillons sont traités dans différentes réactions de capture ou séquences, les effets de lot sont inévitables. Harmony est une méthode rapide et efficace qui corrige les effets de lot dans l'espace d'embedding PCA. Elle fonctionne bien pour la plupart des ensembles de données et est robuste face aux différences de composition des types cellulaires entre les lots, ce qui en fait un bon choix par défaut pour l'intégration multi-échantillons. Le flux de travail d'intégration Seurat (FindIntegrationAnchors + IntegrateData) utilise l'analyse de corrélation canonique (CCA) pour identifier les états cellulaires partagés entre les lots et est la méthode recommandée lorsque des effets de lot sont attendus pour être forts ou lors de l'intégration de données provenant de différentes plateformes. MNN (voisins mutuels les plus proches) corrige les effets de lot au niveau de l'expression et est adapté aux ensembles de données où les mêmes types cellulaires sont attendus dans tous les lots.
Figure 4. Méthodes de correction par lot pour le scRNA-seq — Comparaison de Harmony, Seurat CCA et MNN
Légende : Comparaison de trois méthodes de correction de lots pour le scRNA-seq—Harmony, intégration CCA de Seurat et MNN—montrant leurs stratégies de correction, exigences computationnelles et cas d'utilisation les plus adaptés pour l'intégration de jeux de données.
Réduction de dimensionnalité et regroupement
Après normalisation et correction par lots, la matrice d'expression génique de haute dimension est réduite à une représentation de basse dimension pour la visualisation et le regroupement.
Analyse en composantes principales (ACP)La PCA est la première étape standard dans la réduction de dimensionnalité. Pour la plupart des ensembles de données scRNA-seq, 20 à 50 composantes principales capturent la variation biologique significative. Le graphique en coude (variance expliquée par PC) est utilisé pour déterminer le nombre optimal de PC — le point où la courbe s'aplatit indique le seuil au-delà duquel les composantes capturent principalement du bruit. Sélectionner trop peu de PC rejette la variation biologique pertinente pour distinguer des types cellulaires similaires ; en sélectionner trop introduit du bruit qui peut obscurcir la structure de regroupement.
Visualisation UMAPUMAP fournit une représentation 2D du paysage cellulaire qui préserve à la fois la structure locale et globale. Il a largement remplacé t-SNE pour la visualisation des scRNA-seq en raison de sa rapidité et de sa meilleure préservation des relations globales entre les clusters de cellules.
RegroupementLes algorithmes de Louvain et de Leiden sont les méthodes standards pour identifier les clusters cellulaires. Leiden est préféré à Louvain car il garantit des clusters bien connectés et est moins susceptible de produire des communautés déconnectées. Le paramètre de résolution contrôle la granularité du clustering : une résolution plus élevée produit plus de clusters qui peuvent représenter des sous-types cellulaires distincts, mais peut également trop diviser des populations cellulaires continues. Un flux de travail typique teste des résolutions allant de 0,2 à 1,2 et sélectionne la résolution qui produit des clusters biologiquement interprétables sans fragmentation excessive.
Identification des marqueurs de clustersUne fois les clusters définis, les gènes marqueurs pour chaque cluster sont identifiés en comparant le profil d'expression de chaque cluster avec tous les autres. La fonction FindAllMarkers de Seurat avec le test de Wilcoxon est la méthode par défaut. La sortie est une liste de gènes qui sont surexprimés dans chaque cluster, classés par changement de log moyen ou par valeur p ajustée. Ces gènes marqueurs sont utilisés pour l'annotation des types cellulaires et doivent être interprétés dans le contexte de la biologie connue : un cluster exprimant des marqueurs de cellules T (CD3D, CD8A) est probablement une population de cellules T, tandis qu'un cluster exprimant des marqueurs de cellules B (CD79A, MS4A1) est probablement une population de cellules B.
Annotation des types cellulaires — Manuel vs. Automatisé
L'annotation des types cellulaires est l'étape qui traduit les identités des clusters en signification biologique. Deux approches sont disponibles, avec des compromis différents.
Annotation manuelleDes gènes marqueurs connus pour chaque type cellulaire attendu sont utilisés pour étiqueter les clusters en fonction de leurs profils d'expression. L'annotation manuelle est la norme en matière de précision, mais elle est chronophage et nécessite une expertise dans le tissu ou le type cellulaire étudié. Elle est recommandée pour les projets où la précision de l'annotation est critique, tels que les études cliniques ou les projets axés sur l'identification de nouveaux sous-types cellulaires.
Annotation automatiséeDes outils comme SingleR, CellTypist et ScType comparent le profil d'expression de chaque cellule à des ensembles de données de référence pour attribuer automatiquement des étiquettes de type cellulaire. L'annotation automatisée est rapide et reproductible, mais dépend fortement de la qualité et de la pertinence de l'ensemble de données de référence. Si la référence n'inclut pas les types cellulaires présents dans l'ensemble de données de requête, ces cellules seront mal classées ou laissées sans attribution. Une stratégie pratique consiste à utiliser l'annotation automatisée comme première étape, puis à valider ou affiner les résultats par une inspection manuelle des gènes marqueurs.
Pour les projets nécessitant une annotation de type cellulaire validée avec des contrôles de qualité appropriés, services d'analyse en bioinformatique peut fournir à la fois des stratégies d'annotation automatisées et manuelles avec des ensembles de gènes marqueurs documentés et des étapes de validation croisée.
Outil d'analyse en aval
Une fois que les types de cellules sont identifiés, une gamme d'analyses en aval peut être effectuée en fonction de la question de recherche.
- Analyse de l'expression différentielle (DE)Identifie les gènes qui sont exprimés différemment entre les types cellulaires ou entre les conditions au sein d'un type cellulaire. Le test de Wilcoxon (par défaut dans Seurat) ou MAST sont des méthodes couramment utilisées. Les approches pseudobulk qui agrègent les comptes par échantillon et type cellulaire avant d'appliquer des méthodes de DE bulk (DESeq2, edgeR) fournissent des résultats plus conservateurs et reproductibles.
- Analyse d'enrichissement des ensembles de gènes: Teste si les gènes DE sont enrichis dans des voies spécifiques ou des catégories fonctionnelles. GSEA ou analyse de sur-représentation utilisant les bases de données GO, KEGG ou Reactome.
- Analyse de trajectoire en pseudotempsReconstruit les trajectoires de développement ou de différenciation à partir des données scRNA-seq en ordonnant les cellules le long d'un chemin continu basé sur la similarité transcriptionnelle. Monocle 3 et Slingshot sont des outils standards pour l'inférence de trajectoire. scVelo utilise la vélocité de l'ARN pour inférer les états cellulaires futurs et la directionnalité.
- Analyse de la communication cellulairePrédit les interactions ligand-récepteur entre les types cellulaires en utilisant des bases de données telles que CellChat, NicheNet ou SingleCellSignalR.
- Inférence de variation du nombre de copies (CNV)Identifie des altérations chromosomiques à grande échelle à partir de données de scRNA-seq en utilisant des outils comme InferCNV, particulièrement pertinent dans les études sur le cancer.
Figure 5. Pièges courants de la scRNA-seq — problèmes, causes et solutions
Résumé des pièges courants de l'analyse scRNA-seq, y compris la faible récupération cellulaire, les taux élevés de doubles, les effets de lot dominant le regroupement, des clusters ininterprétables dus à un sur-regroupement, et l'incertitude d'annotation due à un décalage de référence.
Exigences en matière de calcul et de stockage pour le scRNA-Seq
Les projets de scRNA-seq génèrent considérablement plus de données et nécessitent plus de ressources informatiques que les projets de RNA-seq en vrac de taille d'échantillon comparable.
- Données brutes par capture 10xUn run standard 10x ciblant 10 000 cellules à 50 000 lectures par cellule produit environ 500 millions de lectures, générant 30 à 50 Go de données FASTQ par échantillon.
- Exigences de stockagePour un projet de 10 échantillons, prévoyez environ 300-500 Go de données brutes, plus 100-200 Go pour les fichiers alignés et traités. Total : 500-700 Go.
- Exigences en matière de mémoireL'analyse Seurat et Scanpy de 10 000 cellules nécessite 16 à 32 Go de RAM. Pour des ensembles de données dépassant 50 000 cellules, 64 à 128 Go sont recommandés.
- Temps de calculUn flux de travail standard Seurat pour 10 000 cellules prend 2 à 4 heures. Pour 100 000 cellules, prévoyez 12 à 24 heures. Les flux de travail Scanpy sont généralement plus rapides et plus efficaces en mémoire pour les grands ensembles de données.
Directions émergentes — Intégration multi-omiques et spatiale
La technologie des cellules uniques évolue au-delà de la transcriptomique pour capturer plusieurs couches moléculaires à partir de la même cellule. Le CITE-seq mesure simultanément l'expression des gènes et l'abondance des protéines de surface en utilisant des anticorps conjugués à des oligonucléotides. Le scATAC-seq profile l'accessibilité de la chromatine à la résolution de cellule unique. Les plateformes multi-omiques à cellule unique (10x Multiome) capturent l'expression de l'ARN et le ATAC-seq à partir de la même cellule dans une seule réaction.
l'intégration de la scRNA-seq avec la transcriptomique spatiale est l'un des domaines les plus actifs de développement méthodologique. Les plateformes de transcriptomique spatiale (10x Visium, Slide-seq, MERFISH, Xenium) cartographient l'expression génique aux emplacements tissulaires, fournissant un contexte spatial pour les types cellulaires identifiés par la scRNA-seq. Des méthodes computationnelles comme RCTD, Cell2location et SpaGCN permettent l'intégration des données de référence scRNA-seq avec des données spatiales pour inférer l'organisation spatiale des types cellulaires. Pour les groupes de recherche prévoyant d'incorporer ces approches, services d'analyse multi-omiques peut soutenir l'intégration des données à travers les modalités transcriptomiques, épigénomiques et spatiales.
Pièges courants de la scRNA-Seq et comment les éviter
| Problème observé | Cause racine | Prévention |
|---|---|---|
| Faible récupération cellulaire | Mauvaise dissociation, faible viabilité, chargement suboptimal | Optimiser le protocole de dissociation ; évaluer la viabilité avant le chargement. |
| Taux de doublet élevé (>10%) | Concentration excessive de chargement cellulaire | Calculez le chargement avec soin ; utilisez la détection de doublets computationnels. |
| Les effets de lot dominent le regroupement. | Différentes séries non équilibrées | Utilisez le hachage des cellules ; incluez la correction par lot dans le pipeline. |
| Clusters ininterprétables | Sur-clustering ; gouttelettes vides incluses | Tester plusieurs résolutions ; filtrer rigoureusement les gouttelettes vides. |
| Incertitude d'annotation | Gènes marqueurs manquants ; désaccord de référence | Utilisez plusieurs stratégies d'annotation ; validez avec des marqueurs indépendants. |
FAQ
Combien de cellules ai-je besoin pour le scRNA-seq ?
Pour caractériser les principaux types de cellules dans un tissu, 3 000 à 5 000 cellules par échantillon sont généralement suffisantes. Pour détecter des populations cellulaires rares (<1 % du total des cellules), visez 10 000 à 20 000 cellules. Le nombre requis dépend de la fréquence attendue du type de cellule le plus rare d'intérêt.
Quelle profondeur de séquençage est requise pour le scRNA-seq ?
Pour l'analyse au niveau des gènes, 20 000 à 50 000 lectures par cellule est standard. Pour l'analyse au niveau des isoformes ou des épissures, 50 000 à 100 000 lectures par cellule peuvent être nécessaires. Une profondeur plus élevée permet une détection plus sensible des gènes faiblement exprimés, mais à un coût par cellule accru.
Devrais-je utiliser Seurat ou Scanpy pour l'analyse de scRNA-seq ?
Les deux produisent des résultats comparables pour les flux de travail standard. Seurat (R) offre plus de fonctionnalités intégrées pour l'intégration et la visualisation. Scanpy (Python) offre une plus grande flexibilité pour l'analyse personnalisée et est plus efficace en mémoire pour les ensembles de données dépassant 50 000 cellules.
Comment gérer les effets de lot dans les données scRNA-seq ?
Harmony est recommandé pour la plupart des ensembles de données. L'intégration CCA de Seurat est appropriée pour les ensembles de données avec de forts effets de lot et des types de cellules qui se chevauchent. MNN est adapté pour l'intégration entre différentes plateformes ou technologies.
Quelle est la différence entre le séquençage d'ARN sc à 3' et à 5' ?
La séquençage scRNA-seq 3' (standard 10x Genomics) séquence l'extrémité 3' des transcrits au coût par cellule le plus bas. Le scRNA-seq 5' séquence l'extrémité 5' et permet le profilage des récepteurs immunitaires associés à l'expression génique, ce qui en fait le choix privilégié pour les études en immunologie.
Puis-je combiner la scRNA-seq avec d'autres technologies omiques ?
Oui. CITE-seq ajoute la quantification des protéines de surface, scATAC-seq ajoute l'accessibilité de la chromatine, et la transcriptomique spatiale fournit un contexte tissulaire. L'intégration multi-omique est un domaine de recherche actif avec des méthodes computationnelles en rapide amélioration.
Comment puis-je déterminer la résolution de regroupement optimale pour mon ensemble de données ?
Testez des résolutions de 0,2 à 1,2 et évaluez la qualité des clusters en utilisant le score de silhouette, l'expression différentielle entre les clusters et l'interprétabilité biologique des gènes marqueurs. La résolution optimale produit des clusters qui sont transcriptionnellement distincts et correspondent à des types cellulaires connus.
Quelle est la différence entre UMAP et t-SNE pour la visualisation des scRNA-seq ?
UMAP est plus rapide, préserve mieux la structure globale et est la norme actuelle pour la visualisation des scRNA-seq. t-SNE excelle à préserver la structure locale mais peut déformer les relations entre les clusters et est plus lent pour les grands ensembles de données.
Comment valider les annotations de type cellulaire dans le séquençage d'ARN unicellulaire (scRNA-seq) ?
Utilisez plusieurs gènes marqueurs indépendants pour chaque type cellulaire, comparez l'annotation automatisée avec l'inspection manuelle et validez par rapport aux ensembles de données publiés ou à des méthodes expérimentales indépendantes.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Références:
- Meilleures pratiques pour l'analyse de cellules uniques à travers les modalités. Nature Reviews Génétique2023 ; 24 : 550-572.
- Meilleures pratiques actuelles dans l'analyse de l'ARN-seq à cellule unique : un tutoriel. Biologie des Systèmes Moléculaires. 2019;15:e8746.
- Un manuel pratique sur le contrôle de la qualité des données de séquençage d'ARN à cellule unique. Journal de l'Association Médicale Formosane2024;123:1205-1215.
- Avancées et défis dans l'analyse des données de séquençage d'ARN à cellule unique. Briefings en bioinformatique. 2026;27:bbaf723.
- Séquençage unicellulaire à multi-omiques : technologies et défis. Recherche sur les biomarqueurs. 2024;12:124.