Actuellement, le séquençage d'ARN à cellule unique est devenu un sujet important et d'actualité. Il offre des informations inestimables qui ne peuvent être obtenues par le séquençage d'ARN en vrac traditionnel, en particulier lorsqu'il s'agit d'étudier la biologie du développement, la biologie des tumeurs, l'immunité et des domaines connexes. Au cœur du séquençage à cellule unique se trouvent les techniques de réduction de dimensionnalité T-sne et de regroupement, qui facilitent l'exploration et l'analyse des données. Cependant, il est crucial de souligner que le succès ou l'échec de l'ensemble de l'analyse dépend fortement de mesures de contrôle de qualité méticuleuses effectuées avant ces étapes. Dans cet article, nous proposons un aperçu complet du contrôle de qualité des cellules uniques.
Divers facteurs influencent les préférences en séquençage d'ARN à cellule unique, notamment :
En comprenant et en abordant ces préférences, les chercheurs peuvent améliorer la fiabilité et la validité des études de séquençage d'ARN à cellule unique.
Avant de réaliser un séquençage à cellule unique, il est essentiel de séparer efficacement les cellules. Un échec à le faire dans un délai limité peut avoir un impact négatif sur l'intégrité cellulaire, pouvant entraîner une fuite d'ARN des cellules. Voici plusieurs facteurs importants à garder à l'esprit lors de l'isolement de cellules uniques à partir de tissus :
Par conséquent, lors de l'analyse des résultats de clustering, il est crucial d'examiner attentivement s'il existe des gènes qui présentent des motifs d'expression spécifiques dans des groupes cellulaires particuliers, ce qui pourrait être attribué à l'expérience de séparation cellulaire.
Lorsqu'il s'agit de tri cellulaire, nous rencontrons plusieurs défis, notamment :
Pour relever ces défis, différentes stratégies de séquençage de cellules uniques ont été développées. Il est crucial de choisir soigneusement la stratégie de cellule unique appropriée pour étudier des tissus spécifiques. De plus, une faible qualité cellulaire ou la présence de cellules mortes ou de débris cellulaires peuvent entraîner l'encapsulation de plusieurs cellules au sein de gouttelettes. Lors de l'analyse des données qui suit, ces gouttelettes peuvent soit former un cluster distinct, soit apparaître enrichies entre deux groupes de cellules.
Pour déterminer la présence de gouttelettes contenant plusieurs cellules, les critères suivants sont généralement utilisés :
Actuellement, plusieurs outils logiciels sont disponibles pour aider à identifier les doublets, tels que :
Ces algorithmes de détection de doublons présentent des similitudes dans leur approche et suivent un principe de base composé des étapes suivantes :
Avant de procéder au séquençage de cellules uniques, il est nécessaire de lyser les cellules. Les conditions de lyse varieront en fonction des tissus cellulaires étudiés. Si les conditions de lyse sont excessivement strictes, cela aura un impact négatif sur la préparation de la bibliothèque.
L'efficacité de la transcriptase inverse est d'une importance capitale. Le taux d'abandon varie généralement de 60 % à 90 %. Dans les cas où la même lignée cellulaire est traitée de la même manière mais en utilisant deux bibliothèques différentes, le taux d'abandon peut présenter des variations significatives.
Chaque étape d'amplification peut introduire des biais. De nombreuses techniques de séquençage de transcriptomes unicellulaires utilisent des codes-barres moléculaires comme mesure pour aider à corriger les biais induits par l'amplification. Cependant, les transcriptomes complets tels que SmartSeq2 manquent de codes-barres moléculaires, rendant impossible la correction des préférences d'amplification en utilisant des méthodes basées sur des codes-barres moléculaires.
En utilisant des ARN de spike-in, une collection de transcrits d'ARN avec des séquences connues, le processus de construction de la bibliothèque a impliqué l'ajout de molécules de spike-in à des concentrations connues. Cet ensemble de spike-ins comprenait :
Applications des Spike-ins :
Limitations des Spike-ins :
Malgré leur utilité, les spike-ins diffèrent encore des gènes endogènes, notamment en termes de préférence d'amplification. Cette disparité doit être prise en compte lors de l'interprétation des résultats. De plus, les spike-ins ne sont généralement pas utilisés dans les méthodologies drop-seq.
En général, les points de contrôle pour le contrôle de la qualité (CQ) incluent les éléments suivants :
Un faible rapport ou un faible nombre de lectures peut être attribué à des problèmes de construction de bibliothèque. Un faible nombre de lectures peut résulter d'une augmentation de la formation de dimères d'amorces, tandis qu'un faible rapport est généralement indicatif de problèmes survenant lors de la construction de la bibliothèque.
L'absence de séquences d'ARN ajoutées indique directement un échec dans la construction de la bibliothèque. Cependant, si l'ARN ajouté est normal et que la cellule présente un faible nombre de séquences d'ARN, cela pourrait être dû à la petite taille de la cellule ou à des dommages subis par la cellule avant la construction de la bibliothèque.
Le nombre de gènes détectés est directement lié à la taille de la cellule. Si un nombre excessif de gènes (codes-barres moléculaires) est détecté, il est probable que plusieurs cellules soient présentes dans la goutte. Cependant, il ne peut pas être exclu que la cellule elle-même soit simplement très grande. Comme montré ci-dessous, avoir trop de gènes ou pas assez n'est pas considéré comme normal.
En général, il existe une corrélation positive entre la taille des cellules, le ratio d'ARN spike-in et le nombre de gènes détectés. Des niveaux élevés d'ARN mitochondrial indiquent également une cellule endommagée. Lorsque la cellule se casse, l'ARN cytoplasmique est libéré, mais l'ARN mitochondrial reste encapsulé dans la membrane mitochondriale. Par conséquent, lorsque la membrane cellulaire est endommagée, le pourcentage d'ARN mitochondrial augmente. Remarque : Ce phénomène peut également se produire lors de l'apoptose ou de la nécrose.
Des niveaux élevés d'ARN ribosomique peuvent indiquer une dégradation accrue de l'ARN au sein de la cellule. Dans les transcriptomes de cellules uniques en pleine longueur, la préférence pour le 3' peut être utilisée pour identifier une dégradation substantielle de l'ARN dans la cellule.
En général, la plupart des cellules auront la même tendance, et nous combinons plusieurs métriques pour éliminer certaines cellules qui ne répondent pas aux critères. Donc, examinez la distribution des données avant de décider quelles cellules doivent être filtrées.
Basé sur l'ACP, cet algorithme peut également être utilisé pour le contrôle qualité afin de trouver des cellules qui ne sont clairement pas regroupées avec d'autres cellules. Ces cellules sont considérées comme celles qui ne répondent pas aux normes de contrôle de qualité.
La prochaine étape consiste à discuter de la manière de filtrer les gènes. Dans la grande majorité des cas, nous n'utiliserons pas tous les gènes pour effectuer une analyse de réduction, donc une sélection de jeux de gènes est nécessaire.
L'ensemble de gènes est basé sur :
Seules les premières composantes principales sont sélectionnées pour le redimensionnement t-SNE.
L'un des problèmes les plus difficiles dans le séquençage d'ARN à cellule unique concerne les effets de lot. Les effets de lot peuvent se manifester dans divers scénarios, tels que :
Pour atténuer les effets de lot, il est essentiel d'établir des normes de contrôle de qualité distinctes pour différents lots d'échantillons. Une approche consiste à utiliser l'analyse en composantes principales (ACP) pour identifier les effets de lot évidents dans les résultats obtenus.