Séquençage d'ARN à cellule unique : Contrôle de qualité

Aperçu rapide

01 Considérations clés pour la séparation des cellules dans le séquençage à cellule unique 02 Tri cellulaire 03 Lyse cellulaire 04 Transcription inverse 05 Processus d'amplification 06 Préparation de la bibliothèque et séquençage 07 Points de contrôle de la qualité pour le séquençage d'ARN à cellule unique 08 Comment filtrer des cellules 09 Comment filtrer les gènes dix Comment traiter les effets de lot

Actuellement, le séquençage d'ARN à cellule unique est devenu un sujet important et d'actualité. Il offre des informations inestimables qui ne peuvent être obtenues par le séquençage d'ARN en vrac traditionnel, en particulier lorsqu'il s'agit d'étudier la biologie du développement, la biologie des tumeurs, l'immunité et des domaines connexes. Au cœur du séquençage à cellule unique se trouvent les techniques de réduction de dimensionnalité T-sne et de regroupement, qui facilitent l'exploration et l'analyse des données. Cependant, il est crucial de souligner que le succès ou l'échec de l'ensemble de l'analyse dépend fortement de mesures de contrôle de qualité méticuleuses effectuées avant ces étapes. Dans cet article, nous proposons un aperçu complet du contrôle de qualité des cellules uniques.

Divers facteurs influencent les préférences en séquençage d'ARN à cellule unique, notamment :

Préférences d'amplification : Certains ARNm fortement exprimés peuvent rencontrer des limitations lors du processus d'amplification.
Taux d'abandon : Certains ARNm peuvent ne pas s'amplifier, entraînant leur omission de l'analyse.
Éclatement transcriptionnel : La nature sporadique de l'activité transcriptionnelle peut affecter la précision des mesures.
Bruit de fond : Des signaux indésirables et du bruit technique peuvent obscurcir les signaux biologiques souhaités.
Préférences influencées par le cycle cellulaire et la taille des cellules : Les variations des stades du cycle cellulaire et des tailles des cellules peuvent avoir un impact sur les résultats de séquençage.
Effet de lot : Les écarts provenant de différents lots expérimentaux peuvent introduire des biais et entraver des comparaisons précises.
Analyse de corrélation suite à une réplication technique du même échantillon : La réplication des procédures techniques permet d'évaluer la fiabilité et la reproductibilité des résultats.

En comprenant et en abordant ces préférences, les chercheurs peuvent améliorer la fiabilité et la validité des études de séquençage d'ARN à cellule unique.

Considérations clés pour la séparation des cellules dans le séquençage de cellules uniques

Avant de réaliser un séquençage à cellule unique, il est essentiel de séparer efficacement les cellules. Un échec à le faire dans un délai limité peut avoir un impact négatif sur l'intégrité cellulaire, pouvant entraîner une fuite d'ARN des cellules. Voici plusieurs facteurs importants à garder à l'esprit lors de l'isolement de cellules uniques à partir de tissus :

Séparation cellulaire incomplète : Il est possible que plusieurs cellules adhèrent ensemble pendant le processus de séparation.
Dommages cellulaires et dégradation de l'ARN : Des conditions de séparation cellulaire inadéquates peuvent nuire aux cellules, entraînant une dégradation ou une fuite de l'ARN.
Signal de fond dû à la fuite d'ARN : La fuite d'ARN lors de la séparation cellulaire peut contribuer à des signaux de fond indésirables.
Isolement cellulaire biaisé : La procédure d'isolement cellulaire peut introduire un biais, où certains types de cellules sont préférentiellement isolés. De plus, le processus lui-même peut induire des changements dans l'expression génique.

Par conséquent, lors de l'analyse des résultats de clustering, il est crucial d'examiner attentivement s'il existe des gènes qui présentent des motifs d'expression spécifiques dans des groupes cellulaires particuliers, ce qui pourrait être attribué à l'expérience de séparation cellulaire.

Tri de cellules

Lorsqu'il s'agit de tri cellulaire, nous rencontrons plusieurs défis, notamment :

Distribution cellulaire incohérente : Les méthodes de séquençage à cellule unique existantes rencontrent souvent le problème de gouttes ou de puits vides, ainsi que des cas où plusieurs cellules sont présentes dans une seule goutte.
Préférences de taille des cellules : De nombreux tests unicellulaires présentent une préférence pour des tailles de cellules spécifiques. Par exemple, des techniques comme dropseq imposent une limite supérieure à la taille des cellules.
Préférences de types cellulaires : Il y a souvent une préférence pour le tri de types cellulaires spécifiques dans les expériences à cellule unique.
Dommages cellulaires et bruit de fond : Des expériences de tri prolongées peuvent endommager les cellules et introduire du bruit de fond, ce qui peut affecter la qualité des données obtenues.

Pour relever ces défis, différentes stratégies de séquençage de cellules uniques ont été développées. Il est crucial de choisir soigneusement la stratégie de cellule unique appropriée pour étudier des tissus spécifiques. De plus, une faible qualité cellulaire ou la présence de cellules mortes ou de débris cellulaires peuvent entraîner l'encapsulation de plusieurs cellules au sein de gouttelettes. Lors de l'analyse des données qui suit, ces gouttelettes peuvent soit former un cluster distinct, soit apparaître enrichies entre deux groupes de cellules.

Pour déterminer la présence de gouttelettes contenant plusieurs cellules, les critères suivants sont généralement utilisés :

Valeur élevée des codes-barres moléculaires : Une valeur élevée de code-barres moléculaire indique la probabilité qu'une gouttelette contienne plusieurs cellules.
Identification des cellules caractérisées par plusieurs populations cellulaires : Des populations cellulaires spécifiques affichant des caractéristiques de plusieurs types cellulaires peuvent indiquer des gouttelettes contenant plusieurs cellules.
Dans le cas du séquençage d'ARN à cellule unique 10X, la proportion de doubles peut être prédite, ce qui est directement corrélé au nombre de cellules présentes.

Actuellement, plusieurs outils logiciels sont disponibles pour aider à identifier les doublets, tels que :

DoubletFinder
Scrublet
DoubletDecon
DoubletCluster/DoubletCell dans Scran

Ces algorithmes de détection de doublons présentent des similitudes dans leur approche et suivent un principe de base composé des étapes suivantes :

Fusion de cellules aléatoires : Deux cellules sont fusionnées au hasard pour simuler des doublets.
Redimensionnement et regroupement des données : Les données fusionnées sont redimensionnées et regroupées pour identifier des groupes de cellules.
Suppression des doublets identifiés : Les cellules qui se regroupent avec les doubles simulés sont identifiées et ensuite retirées de l'analyse.

Lyse cellulaire

Avant de procéder au séquençage de cellules uniques, il est nécessaire de lyser les cellules. Les conditions de lyse varieront en fonction des tissus cellulaires étudiés. Si les conditions de lyse sont excessivement strictes, cela aura un impact négatif sur la préparation de la bibliothèque.

Transcription inverse

L'efficacité de la transcriptase inverse est d'une importance capitale. Le taux d'abandon varie généralement de 60 % à 90 %. Dans les cas où la même lignée cellulaire est traitée de la même manière mais en utilisant deux bibliothèques différentes, le taux d'abandon peut présenter des variations significatives.

Processus d'amplification

Chaque étape d'amplification peut introduire des biais. De nombreuses techniques de séquençage de transcriptomes unicellulaires utilisent des codes-barres moléculaires comme mesure pour aider à corriger les biais induits par l'amplification. Cependant, les transcriptomes complets tels que SmartSeq2 manquent de codes-barres moléculaires, rendant impossible la correction des préférences d'amplification en utilisant des méthodes basées sur des codes-barres moléculaires.

Préparation de la bibliothèque et séquençage

En utilisant des ARN de spike-in, une collection de transcrits d'ARN avec des séquences connues, le processus de construction de la bibliothèque a impliqué l'ajout de molécules de spike-in à des concentrations connues. Cet ensemble de spike-ins comprenait :

ERCC : Composé de 92 ARN dérivés de diverses bactéries, possédant différentes longueurs et teneurs en GC, qui ont été incorporés à 22 concentrations distinctes.
SIRV : Composé de 69 transcrits synthétiques conçus pour imiter les gènes humains. Principalement utilisé pour valider la capacité des résultats de séquençage à détecter des isoformes au sein des gènes humains.

Applications des Spike-ins :

Suppression du bruit technique : Les spike-ins aident à éliminer le bruit technique présent lors de la préparation de la bibliothèque et des procédures de séquençage.
Détection de l'efficacité de capture : Elles facilitent l'évaluation de l'efficacité de capture, mesurant à quel point les ARN cibles sont efficacement capturés.
Calcul de l'initiation de l'ARN : Les spike-ins aident à calculer les taux d'initiation de l'ARN, contribuant à la compréhension de l'activité transcriptionnelle.
Normalisation des données : Ils permettent la normalisation des données, garantissant des comparaisons précises entre différents échantillons.

Limitations des Spike-ins :

Malgré leur utilité, les spike-ins diffèrent encore des gènes endogènes, notamment en termes de préférence d'amplification. Cette disparité doit être prise en compte lors de l'interprétation des résultats. De plus, les spike-ins ne sont généralement pas utilisés dans les méthodologies drop-seq.

Points de contrôle de la qualité pour le séquençage d'ARN à cellule unique

En général, les points de contrôle pour le contrôle de la qualité (CQ) incluent les éléments suivants :

Taux de correspondances uniques
Proportion de correspondances aux régions exoniques
Préférence 3' dans les transcriptions complètes à cellule unique
Lectures appariées à l'ARNm
Rapport des codes-barres moléculaires/lectures
Nombre de gènes détectés
Détection de l'ARN Spike-in
Rapport ARN mitochondrial-ARN ribosomal

Un faible rapport ou un faible nombre de lectures peut être attribué à des problèmes de construction de bibliothèque. Un faible nombre de lectures peut résulter d'une augmentation de la formation de dimères d'amorces, tandis qu'un faible rapport est généralement indicatif de problèmes survenant lors de la construction de la bibliothèque.

L'absence de séquences d'ARN ajoutées indique directement un échec dans la construction de la bibliothèque. Cependant, si l'ARN ajouté est normal et que la cellule présente un faible nombre de séquences d'ARN, cela pourrait être dû à la petite taille de la cellule ou à des dommages subis par la cellule avant la construction de la bibliothèque.

Le nombre de gènes détectés est directement lié à la taille de la cellule. Si un nombre excessif de gènes (codes-barres moléculaires) est détecté, il est probable que plusieurs cellules soient présentes dans la goutte. Cependant, il ne peut pas être exclu que la cellule elle-même soit simplement très grande. Comme montré ci-dessous, avoir trop de gènes ou pas assez n'est pas considéré comme normal.

En général, il existe une corrélation positive entre la taille des cellules, le ratio d'ARN spike-in et le nombre de gènes détectés. Des niveaux élevés d'ARN mitochondrial indiquent également une cellule endommagée. Lorsque la cellule se casse, l'ARN cytoplasmique est libéré, mais l'ARN mitochondrial reste encapsulé dans la membrane mitochondriale. Par conséquent, lorsque la membrane cellulaire est endommagée, le pourcentage d'ARN mitochondrial augmente. Remarque : Ce phénomène peut également se produire lors de l'apoptose ou de la nécrose.

Des niveaux élevés d'ARN ribosomique peuvent indiquer une dégradation accrue de l'ARN au sein de la cellule. Dans les transcriptomes de cellules uniques en pleine longueur, la préférence pour le 3' peut être utilisée pour identifier une dégradation substantielle de l'ARN dans la cellule.

Comment filtrer des cellules

En général, la plupart des cellules auront la même tendance, et nous combinons plusieurs métriques pour éliminer certaines cellules qui ne répondent pas aux critères. Donc, examinez la distribution des données avant de décider quelles cellules doivent être filtrées.

Basé sur l'ACP, cet algorithme peut également être utilisé pour le contrôle qualité afin de trouver des cellules qui ne sont clairement pas regroupées avec d'autres cellules. Ces cellules sont considérées comme celles qui ne répondent pas aux normes de contrôle de qualité.

Comment filtrer les gènes

La prochaine étape consiste à discuter de la manière de filtrer les gènes. Dans la grande majorité des cas, nous n'utiliserons pas tous les gènes pour effectuer une analyse de réduction, donc une sélection de jeux de gènes est nécessaire.

L'ensemble de gènes est basé sur :

Gènes avec une expression au-dessus d'un certain seuil
Gènes avec une variation différentielle dans l'échantillon cellulaire
Utiliser des connaissances a priori pour sélectionner des gènes
Gènes différentiels qui ont été identifiés dans le séquençage d'ARN en vrac.

Seules les premières composantes principales sont sélectionnées pour le redimensionnement t-SNE.

Comment traiter les effets de lot

L'un des problèmes les plus difficiles dans le séquençage d'ARN à cellule unique concerne les effets de lot. Les effets de lot peuvent se manifester dans divers scénarios, tels que :

Expériences distinctes menées sur divers animaux, patients ou cellules.
Des pistes de séquençage variées ont été utilisées lors des expériences.

Pour atténuer les effets de lot, il est essentiel d'établir des normes de contrôle de qualité distinctes pour différents lots d'échantillons. Une approche consiste à utiliser l'analyse en composantes principales (ACP) pour identifier les effets de lot évidents dans les résultats obtenus.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.