Générer un profil d'expression complet est essentiel lors de l'étude de la biologie normale et des processus pathologiques. transcriptome est l'ensemble complet des transcrits d'une cellule ou d'une population, et analyse du transcriptome révèle l'identité et la quantité de toutes les molécules d'ARN. La corrélation des transcriptomes à travers les stades de développement, les états pathologiques par rapport aux cellules normales, ou des stimuli expérimentaux spécifiques par rapport aux conditions physiologiques est une application essentielle de RNA-seqCe type d'analyse nécessite l'identification des gènes et de leurs isoformes, ainsi qu'une estimation précise de leur abondance lors de la comparaison de deux échantillons ou plus. C'est crucial pour déchiffrer les éléments fonctionnels du génome et déterminer la composition moléculaire, ce qui peut conduire à de nouvelles perspectives sur les mécanismes biologiques du développement et de la maladie. Cuffdiff, DESeq, DESeq2, EdgeR, PoissonSeq, Limma voom et MISO sont quelques-uns des outils les plus utilisés pour l'expression génique différentielle.
Services qui pourraient vous intéresser
Suivant l'étape de prétraitement RNA-seq l'analyse DGE est utilisée pour déterminer comment les niveaux de transcript diffèrent entre les échantillons. Puisque le microarray Depuis, de nombreuses techniques statistiques ont été établies pour utiliser la couverture de lecture afin d'évaluer l'abondance des transcrits. La technique RPKM (lectures par kilobase par million de lectures mappées) est largement utilisée pour tenir compte de l'expression et des comptes de lectures normalisés par rapport au nombre total de lectures mappées et à la longueur des gènes. Cependant, en plus de la couverture de lecture, d'autres facteurs tels que la profondeur de séquençage, la longueur des gènes et l'abondance des isoformes influencent l'abondance approximée des transcrits. Elle a été critiquée parce que la méthode RPKM traite tous RNA-seq lit presque également, par exemple, sans tenir compte des isoformes. RNA-Seq par Expectation-Maximization (RSEM) est un nouvel outil logiciel qui fournit des niveaux d'expression génique et d'isoforme précis pour des espèces sans assemblage de génome de référence.
Figure 1. Flux de travail d'analyse RNA-seq pour l'expression génique. (Corchete, 2020)
À ce jour, la plupart des algorithmes d'analyse de l'expression génique différentielle utilisent des distributions de probabilité basées sur des comptes simples, suivies du test exact de Fisher, sans tenir compte de la variabilité biologique entre les échantillons. Alors que RNA-seq les données ont une très faible variabilité technique par rapport à microarray Les données, la variabilité biologique peuvent être considérablement réduites en évaluant plusieurs réplicats à l'aide de méthodes dérivées de permutations. Pour l'évaluation de la variabilité biologique, une analyse en série de l'expression génique a été développée, dans laquelle des ensembles de données à plus grande échelle sont utilisés pour approximer un paramètre de dispersion supplémentaire basé sur une distribution de Poisson étendue, permettant une capacité de caractérisation moléculaire étendue.
Cependant, un grand nombre de répliques peut être trop coûteux pour la plupart des applications, donc de nombreuses techniques établies ont surmonté le problème en modélisant la variabilité biologique et en mesurant la signification avec un petit nombre d'échantillons, en utilisant des comparaisons par paires ou des comparaisons de groupes multiples. Plusieurs programmes offrent des solutions bien conçues à cet effet, et ils ont été utilisés dans de nombreuses études biomédicales et cliniques. Cuffdiff du package Cufflinks, DESeq, DESeq2 et EdgeR sont des exemples de ces programmes. Parce que RNA-seq les comptes de lecture sont des nombres entiers fortement biaisés allant de zéro à des millions, une variété d'algorithmes de transformation a été utilisée pour adapter les comptes à des modèles de distribution statistique pour la détection de l'expression différentielle. Pour RNA-seq comptes, approches développées pour microarray L'analyse des données basée sur des distributions continues a été améliorée. La fonction voom dans le package limma est un excellent exemple de la façon de transformer des données de comptage en données distribuées selon une loi normale afin que la signification statistique puisse être testée. Une comparaison complète des performances de plusieurs packages DGE a été récemment publiée. Cependant, il n'existe pas de stratégie universelle dont nous ayons connaissance.
L'outil d'Expression Génétique Différentielle (DGE) effectue des tests statistiques basés sur la quantification des gènes exprimés dérivés de l'analyse computationnelle des données brutes. RNA-seq lit, comme le mappage et l'assemblage, pour déterminer quels gènes présentent des différences statistiquement significatives. Il fournit également des informations relatives au niveau d'expression de chaque gène et à l'ampleur des différences par paires. L'analyse DGE peut offrir des aperçus substantiels sur les mécanismes génétiques sous-jacents aux différences phénotypiques chez les organismes, y compris les modèles de croissance des plantes, la détection des origines tumorales et les études de communautés microbiennes.
Algorithmes pour l'alignement de lectures
L'étape computationnelle initiale dans le Séquençage de l'ARN Le pipeline d'analyse de données implique le mappage des lectures, un processus fondamental visant à aligner les séquences de lectures sur le génome ou le transcriptome de référence en identifiant les régions génomiques qui correspondent aux séquences de lectures. Une variété d'outils de mappage a été développée pour faciliter ce processus. Dans tous les cas, le processus de mappage commence par la construction d'un index pour le génome de référence ou l'ensemble de lectures, permettant une récupération rapide des emplacements potentiels dans la séquence de référence où les lectures sont les plus susceptibles de s'aligner. Par la suite, des algorithmes plus lents mais plus sensibles sont utilisés pour aligner les lectures au sein de ces régions candidates.
Mesure numérique de l'expression génique
Lors de l'alignement, chaque lecture séquencée alignée à une unité codante (telle qu'un exon, un transcrit ou un gène) est utilisée pour le comptage, permettant ainsi d'estimer son niveau d'expression. La méthode la plus courante pour le comptage consiste à compter le nombre de lectures se chevauchant avec les exons des gènes. Dans le flux de travail analytique, la quantification de l'expression génique dans Séquençage de l'ARN les données sont généralement obtenues par deux étapes de calcul : l'alignement des lectures à un génome ou un transcriptome de référence, puis l'estimation de l'abondance des gènes et des isoformes sur la base des lectures alignées. Malheureusement, les lectures générées par les méthodes les plus couramment utilisées Séquençage de l'ARN Les technologies sont souvent beaucoup plus courtes que les transcriptions échantillonnées dont elles proviennent. Par conséquent, dans des scénarios où des transcriptions avec des séquences similaires existent, il n'est pas toujours possible d'assigner de manière unique des lectures courtes à des gènes spécifiques.
Biais de quantification et normalisation
De nombreuses études soulignent la nécessité d'une normalisation minutieuse des données avant d'évaluer l'expression génique différentielle afin de corriger diverses sources de biais. Le premier biais à prendre en compte est la "profondeur de séquençage" de l'échantillon, définie comme le nombre total de lectures séquencées ou mappées. Séquençage de l'ARN Les comptes présentent également des biais liés à la longueur des gènes : le nombre attendu de lectures se rendant à un gène est proportionnel à l'abondance et à la longueur des isoformes transcrites à partir de ce gène.
Analyse de données exploratoires
Ces dernières années, la recherche dans le domaine de Séquençage de l'ARN a souvent prospéré, conduisant à l'émergence de divers outils de détection de l'expression génique différentielle. Les méthodes les plus simples pour détecter l'expression génique différentielle reposent sur des tests statistiques pour déterminer quels gènes présentent des changements d'expression statistiquement significatifs dans différentes conditions. Des méthodes non paramétriques pourraient théoriquement être utilisées. Cependant, en raison du nombre limité de réplicats généralement disponibles dans Séquençage de l'ARN Les expériences, les méthodes non paramétriques manquent souvent de puissance de détection suffisante, rendant les méthodes paramétriques plus populaires. Étant donné un nombre spécifique de séquences d'ARN, tous les outils d'analyse de l'expression génique différentielle comprennent deux étapes principales : estimer les paramètres du modèle en fonction des données et détecter les gènes exprimés différemment à l'aide de tests statistiques.
RNA-Seq est une technologie de pointe qui révolutionne l'analyse de l'expression génique différentielle, offrant un aperçu sans précédent du paysage transcriptomique. Cette méthode permet aux chercheurs de localiser et de mesurer les molécules d'ARN avec une précision remarquable, déchiffrant les mécanismes complexes de la régulation génique dans des conditions physiologiques et pathologiques. L'adaptabilité de RNA-Seq transcende les frontières disciplinaires, s'étendant de la recherche biologique fondamentale aux investigations cliniques, s'établissant comme un atout indispensable dans la biologie moléculaire contemporaine. Les avancées dans les méthodologies de séquençage promettent d'améliorer l'efficacité et l'accessibilité de RNA-Seq plus loin. Le paysage futur pourrait présenter des techniques de RNA-Seq à cellule unique raffinées, séquençage à lecture longue pour une reconstruction améliorée du transcriptome et des stratégies multi-omiques intégrées amalgamant RNA-Seq des données avec des ensembles de données moléculaires diversifiés pour offrir une compréhension complète des processus cellulaires.
Si vous souhaitez en savoir plus sur l'analyse de l'expression génique différentielle et le processus d'analyse des données de séquençage d'ARN, vous pouvez consulter nos articles "Qu'est-ce que l'analyse de l'expression génique différentielle ?" et "Flux de travail en bioinformatique pour l'ARN-Seq.
Références :