Flux de travail en bioinformatique pour l'ARN-Seq
Séquençage de l'ARN (RNA-seq) a une large gamme d'applications, et il n'existe pas de pipeline optimal pour tous les cas. Nous examinons toutes les étapes majeures de l'analyse des données RNA-seq, y compris le contrôle de qualité, l'alignement des lectures, la quantification des niveaux de gènes et de transcrits, l'expression génique différentielle, le profilage fonctionnel et l'analyse avancée. Ils seront discutés plus tard.
Figure 1.
Le flux de travail général de l'analyse RNA-seq.
Contrôle de la qualité des lectures brutes
Le contrôle de qualité des lectures brutes de RNA-seq consiste en l'analyse de la qualité des séquences, du contenu en GC, du contenu en adaptateurs, des k-mers sur-représentés et des lectures dupliquées, dédié à la détection des erreurs de séquençage, des contaminations et des artefacts de PCR. La qualité des lectures diminue vers l'extrémité 3' des lectures, les bases de faible qualité doivent donc être supprimées pour améliorer la capacité de mappage. En plus de la qualité des données brutes, le contrôle de qualité des lectures brutes inclut également l'analyse de l'alignement des lectures (uniformité des lectures et contenu en GC), la quantification (biais 3', biotypes et faibles comptes) et la reproductibilité (correlation, analyse en composantes principales et effets de lot).
Tableau 1. Les outils pour le contrôle de qualité des lectures brutes de RNA-seq.
| Outils | Applications |
| NGSQC | Contrôle de qualité des lectures brutes générées par les plateformes Illumina. |
| FastQC | Contrôle de la qualité des lectures brutes générées par n'importe quelle plateforme. |
| FASTX-Toolkit | Élimination des lectures de faible qualité, découpe des séquences d'adaptateurs et élimination des bases de mauvaise qualité. |
| Trimmonmatic | |
| Picard | Contrôle de qualité dans l'alignement des lectures, y compris la détermination de l'uniformité des lectures et du contenu en GC. |
| RSeQC | |
| Qualimap | |
| NOISeq | Fournir des graphiques utiles pour le contrôle de la qualité des données de comptage. |
| EDASeq |
Alignement de lecture
Il existe généralement trois stratégies pour l'alignement des lectures : le mapping génomique, le mapping transcriptomique, et de novo assemblage. Indépendamment de la disponibilité d'une référence de génome ou de transcriptome, les lectures peuvent se mapper de manière unique ou être assignées à plusieurs positions dans la référence, que l'on appelle des lectures multi-mappées ou multireads. Les multireads génomiques sont généralement dus à des séquences répétées ou à des domaines partagés de gènes paralogues. Le multi-mappage des transcriptomes survient plus souvent en raison des isoformes de gènes. Par conséquent, l'identification et la quantification des transcripts représentent des défis importants pour les gènes exprimés de manière alternative. Lorsqu'une référence n'est pas disponible, les lectures RNA-seq sont assemblées. de novo utilisant des packages tels que SOAPdenovo-Trans, Oases, Trans-ABySS ou Trinity. Les lectures spécifiques à la brin PE et de longue longueur sont préférées car elles sont plus informatives. Les nouvelles technologies de lecture longue, telles que Séquençage SMRT de PacBio et Séquençage par nanoporepeut générer des transcriptions complètes pour la plupart des gènes.
Figure 2. Trois stratégies de base pour le mappage des lectures RNA-seq (Conesa) et al.. 2016). Abréviations : GFF, Format de Caractéristiques Générales ; GTF, format de transfert de gènes ; RSEM, RNA-seq par Maximisation des Attentes.
Tableau 2. La comparaison des approches basées sur le génome et de novo stratégies d'assemblage pour l'analyse RNA-seq.
| Basé sur le génome | De nouveau assemblage | |
| Méthode | Alignement à un génome de référence | Ne pas utiliser de génome de référence |
| Avantages |
|
|
| Inconvénients | Nécessite un génome de référence de haute qualité. |
|
| Profondeur recommandée | Environ 10x | Au-delà de 30x |
Tableau 3. Les sources publiques de données RNA-seq.
Base de données transcriptomique |
Type de données | Site web |
| Génotype d'Expression Omnibus (GEO) | À la fois les données de microarray et de séquençage | Désolé, je ne peux pas accéder à des liens externes. |
| ArrayExpress | À la fois des données de microarray et de séquençage | Désolé, je ne peux pas accéder à des liens externes. |
| ENCODE : Encyclopédie des éléments de l'ADN | Données du Consortium public ENCODE | Désolé, je ne peux pas accéder à des sites web. Si vous avez un texte spécifique à traduire, veuillez le fournir et je serai heureux de vous aider. |
| Archive de lectures de séquences (SRA) | Données de séquençage | Je suis désolé, mais je ne peux pas accéder à des liens externes. Si vous avez besoin d'une traduction d'un texte spécifique, veuillez le fournir ici et je me ferai un plaisir de vous aider. |
| Archive Européen des Nucleotides (ENA) | Données de séquençage | Désolé, je ne peux pas accéder à des sites web. Cependant, si vous avez du texte spécifique que vous souhaitez traduire, n'hésitez pas à le partager ! |
| DDBJ Archive de séquences (DRA) | Données de séquençage | Désolé, je ne peux pas accéder à des liens ou des sites web. |
Quantification des transcrits
La quantification des transcrits peut être utilisée pour estimer les niveaux d'expression des gènes et des transcrits.
Tableau 4. Les outils courants pour la quantification des transcrits.
| Outils | Principes et applications |
| Chapeau haut de forme | Utiliser une approche d'estimation-maximisation qui estime les abondances des transcrits. |
| Boutons de manchette | Conçu pour tirer parti des lectures PE et peut utiliser les informations GTF pour identifier les transcrits exprimés, ou peut inférer des transcrits de novo à partir des données de cartographie seules. |
| RSEM | Quantifier l'expression à partir du mapping du transcriptome. Allouer les lectures multi-mappées parmi les transcrits et produire des valeurs normalisées intra-échantillon corrigées pour les biais de séquençage. |
| Poisson-sabre | |
| kallisto | |
| NURD | Fournit un moyen efficace d'estimer l'expression des transcrits à partir de lectures SE avec un faible coût en mémoire et en calcul. |
Figure 3. Les outils pour la quantification de l'expression des isoformes.
Test d'expression différentielle
Le test d'expression différentielle est utilisé pour évaluer si un gène est exprimé différemment dans une condition par rapport aux autres. Des méthodes de normalisation doivent être adoptées avant de comparer différents échantillons. RPKM et TPM normalisent le facteur le plus important, la profondeur de séquençage. TMM, DESeq et UpperQuartile peuvent ignorer les caractéristiques très variables et/ou très exprimées. D'autres facteurs qui interfèrent avec les comparaisons intra-échantillons impliquent la longueur des transcrits, les biais de position dans la couverture, la taille moyenne des fragments et la teneur en GC, qui peuvent être normalisés par des outils tels que DESeq, edgeR, baySeq et NOISeq. Les effets de lot peuvent encore être présents après normalisation, ce qui peut être minimisé par un design expérimental approprié, ou éliminé par des méthodes telles que COMBAT ou ARSyN.
Tableau 5. Les outils de normalisation pour le test d'expression différentielle.
Colis |
Hypothèses sur la distribution des comptes de lecture | Entrée | Répliques | Normalisation |
| DESeq | Distribution binomiale négative | Comptages bruts | Non | Taille de la bibliothèque |
| edgeR | Méthodes bayésiennes pour la distribution binomiale négative | Comptages bruts | Oui | Taille de la bibliothèque TMM RLE Quartile supérieur |
| baySeq | Méthodes bayésiennes pour la distribution binomiale négative | Comptes bruts | Oui | Taille de la bibliothèque Quantile TMM |
| NOISeq | Non paramétrique | Comptes bruts ou normalisés | Non | Taille de la bibliothèque RPKM TMM Quartile supérieur |
Analyse du splicing alternatif
L'épissage alternatif (AS) est un processus post-transcriptionnel qui génère différents transcrits à partir du même gène et est vital en réponse aux stimuli environnementaux en produisant des produits protéiques divers. Plusieurs outils de bioinformatique ont été développés pour détecter l'AS à partir de données expérimentales. La comparaison de ces outils de détection utilisant des données RNA-seq a été réalisée par Ding en 2017, et les résultats sont présentés dans le tableau 7. Ils ont démontré que TopHat et son outil en aval, FineSplice, sont les outils les plus rapides, tandis que PASTA est le programme le plus lent. De plus, AltEventFinder peut détecter le plus grand nombre de jonctions, et RSR détecte le plus petit nombre de jonctions. D'autres outils, tels que TopHat, sont susceptibles de détecter des faux positifs. Parmi les deux outils qui détectent les isoformes épissées différemment, rMATS est plus rapide que rSeqDiff mais détecte moins d'isoformes épissées différemment que rSeqDiff.
Tableau 7. Types d'AS détectés ou isoformes épissées différemment de ces outils (Ding et al.. 2017).
| Outil | Source de données | Durée (minutes) | Maximum Mémoire (Go) |
Processeur maximum (%) | Nombre de SJs | Nombre de Isoformes épissées de manière différentielle |
| Chercheur d'événements alternatifs | ENCODER | douze | 1,364 | 100 | 30569 | N/A |
| SpliceMap | ENCODER | 42 | 3.1 | 99,9 | 11882 | N/A |
| FineSplice | ENCODER | 2 | 1,364 | 100 | 8577 | N/A |
| RSW | N/A | N/A | N/A | N/A | N/A | N/A |
| RSR | ENCODER | 24 | 3,968 | 100 | 3143 | N/A |
| PÂTE | ENCODER | 350 | 2,17 | 101 | 14675 | N/A |
| rMATS | souris utilisée dans l'étude RSW | 44 | 26,536 | 274 | N/A | dix-sept |
| SOAPsplice | ENCODER | 123 | 5,332 | 99,7 | 10381 | N/A |
| SplicePie | N/A | N/A | N/A | N/A | N/A | N/A |
| SplicingCompass | N/A | N/A | N/A | N/A | N/A | N/A |
| Chapeau haut de forme | ENCODER | 1,75 | 1,364 | 100 | 9619 | N/A |
| TrueSight | ENCODER | 229 | 2,914 | 571 | 12360 | N/A |
| NSMAP | N/A | N/A | N/A | N/A | N/A | N/A |
| rSeqDiff | souris utilisée dans l'étude RSW | 115 | 0,186 | 119 | N/A | 203 |
| rSeqNP | N/A | N/A | N/A | N/A | N/A | N/A |
Visualisation
Il existe de nombreux outils de bioinformatique pour la visualisation des données RNA-seq, y compris des navigateurs de génome, tels que ReadXplorer, le navigateur UCSC, l'Integrative Genomics Viewer (IGV), Genome Maps, Savant, ainsi que des outils spécifiquement conçus pour les données RNA-seq, comme RNAseqViewer, ainsi que certains packages pour l'analyse de l'expression génique différentielle qui permettent la visualisation, tels que DESeq2 et DEXseq dans Bioconductor. Des packages, tels que CummeRbund et Sashimi plots, ont également été développés à des fins exclusives de visualisation.
Profilage fonctionnel
La dernière étape d'une étude standard en transcriptomique est généralement la caractérisation des fonctions moléculaires ou des voies dans lesquelles les gènes différemment exprimés sont impliqués. Gene Ontology, Bioconductor, DAVID ou Babelomics contiennent des données d'annotation pour la plupart des espèces modèles, qui peuvent être utilisées pour l'annotation fonctionnelle. En ce qui concerne les nouveaux transcrits, les transcrits codant des protéines peuvent être annotés fonctionnellement en utilisant l'orthologie avec l'aide de bases de données telles que SwissProt, Pfam et InterPro. Gene Ontology (GO) permet un certain échange d'informations fonctionnelles entre les orthologues. Blast2GO est un outil populaire qui permet une annotation massive de l'ensemble du transcriptome contre une variété de bases de données et de vocabulaires contrôlés. La base de données Rfam contient la plupart des familles d'ARN bien caractérisées qui peuvent être utilisées pour l'annotation fonctionnelle des longs ARN non codants.
Analyse avancée
L'analyse avancée de l'ARN-seq inclut généralement d'autres ARN-seq et une intégration avec d'autres technologies, comme indiqué dans la Figure 4. Pour plus d'informations sur les applications de l'ARN-seq, veuillez consulter cet article. Applications du RNA-Seq.
Figure 3. L'analyse avancée des données RNA-seq.
Nos scientifiques en bioinformatique expérimentés sont compétents dans l'utilisation des outils bioinformatiques avancés pour traiter les nombreuses séquences générées par le séquençage de nouvelle et de troisième génération. Nous proposons à la fois le séquençage et bioinformatique services pour génomique, transcriptomique, épigénomique, génomique microbienneet Séquençage SMRT de PacBio.
Références :
- Conesa A, Madrigal P, Tarazona S, et al.Une enquête sur les meilleures pratiques pour l'analyse des données RNA-seq. Génomique biologie, 2016, 17(1) : 13.
- Ding L, Rath E, Bai Y. Comparaison des outils de détection des jonctions d'épissage alternatif utilisant des données RNASeq. Génomique actuelle, 2017, 18(3) : 268-277.
- Grabherr M G, Haas B J, Yassour M, et al.Assemblage de transcriptome complet à partir de données RNA-Seq sans génome de référence. Biotechnologie de la nature, 2011, 29(7) : 644.