Flux de travail en bioinformatique pour l'ARN-Seq

Séquençage de l'ARN (RNA-seq) a une large gamme d'applications, et il n'existe pas de pipeline optimal pour tous les cas. Nous examinons toutes les étapes majeures de l'analyse des données RNA-seq, y compris le contrôle de qualité, l'alignement des lectures, la quantification des niveaux de gènes et de transcrits, l'expression génique différentielle, le profilage fonctionnel et l'analyse avancée. Ils seront discutés plus tard.


Figure 1. Le flux de travail général de l'analyse RNA-seq.

Contrôle de la qualité des lectures brutes

Le contrôle de qualité des lectures brutes de RNA-seq consiste en l'analyse de la qualité des séquences, du contenu en GC, du contenu en adaptateurs, des k-mers sur-représentés et des lectures dupliquées, dédié à la détection des erreurs de séquençage, des contaminations et des artefacts de PCR. La qualité des lectures diminue vers l'extrémité 3' des lectures, les bases de faible qualité doivent donc être supprimées pour améliorer la capacité de mappage. En plus de la qualité des données brutes, le contrôle de qualité des lectures brutes inclut également l'analyse de l'alignement des lectures (uniformité des lectures et contenu en GC), la quantification (biais 3', biotypes et faibles comptes) et la reproductibilité (correlation, analyse en composantes principales et effets de lot).

Tableau 1. Les outils pour le contrôle de qualité des lectures brutes de RNA-seq.

Outils Applications
NGSQC Contrôle de qualité des lectures brutes générées par les plateformes Illumina.
FastQC Contrôle de la qualité des lectures brutes générées par n'importe quelle plateforme.
FASTX-Toolkit Élimination des lectures de faible qualité, découpe des séquences d'adaptateurs et élimination des bases de mauvaise qualité.
Trimmonmatic
Picard Contrôle de qualité dans l'alignement des lectures, y compris la détermination de l'uniformité des lectures et du contenu en GC.
RSeQC
Qualimap
NOISeq Fournir des graphiques utiles pour le contrôle de la qualité des données de comptage.
EDASeq

Alignement de lecture

Il existe généralement trois stratégies pour l'alignement des lectures : le mapping génomique, le mapping transcriptomique, et de novo assemblage. Indépendamment de la disponibilité d'une référence de génome ou de transcriptome, les lectures peuvent se mapper de manière unique ou être assignées à plusieurs positions dans la référence, que l'on appelle des lectures multi-mappées ou multireads. Les multireads génomiques sont généralement dus à des séquences répétées ou à des domaines partagés de gènes paralogues. Le multi-mappage des transcriptomes survient plus souvent en raison des isoformes de gènes. Par conséquent, l'identification et la quantification des transcripts représentent des défis importants pour les gènes exprimés de manière alternative. Lorsqu'une référence n'est pas disponible, les lectures RNA-seq sont assemblées. de novo utilisant des packages tels que SOAPdenovo-Trans, Oases, Trans-ABySS ou Trinity. Les lectures spécifiques à la brin PE et de longue longueur sont préférées car elles sont plus informatives. Les nouvelles technologies de lecture longue, telles que Séquençage SMRT de PacBio et Séquençage par nanoporepeut générer des transcriptions complètes pour la plupart des gènes.


Figure 2. Trois stratégies de base pour le mappage des lectures RNA-seq (Conesa) et al.. 2016). Abréviations : GFF, Format de Caractéristiques Générales ; GTF, format de transfert de gènes ; RSEM, RNA-seq par Maximisation des Attentes.

Tableau 2. La comparaison des approches basées sur le génome et de novo stratégies d'assemblage pour l'analyse RNA-seq.

Basé sur le génome De nouveau assemblage
Méthode Alignement à un génome de référence Ne pas utiliser de génome de référence
Avantages
  • Calcul informatique efficace
  • Élimine les lectures contaminantes
  • Très sensible et peut assembler des transcriptions de faible abondance.
  • Peut découvrir de nouveaux transcrits sans annotation.
  • Le génome de référence n'est pas requis.
  • L'alignement correct des lectures sur des sites d'épissage connus n'est pas requis.
  • Des transcrits trans-épissés peuvent être assemblés.
Inconvénients Nécessite un génome de référence de haute qualité.
  • Plus intensif en calcul
  • Sensible aux erreurs de séquençage
Profondeur recommandée Environ 10x Au-delà de 30x

Tableau 3. Les sources publiques de données RNA-seq.


Base de données transcriptomique
Type de données Site web
Génotype d'Expression Omnibus (GEO) À la fois les données de microarray et de séquençage Désolé, je ne peux pas accéder à des liens externes.
ArrayExpress À la fois des données de microarray et de séquençage Désolé, je ne peux pas accéder à des liens externes.
ENCODE : Encyclopédie des éléments de l'ADN Données du Consortium public ENCODE Désolé, je ne peux pas accéder à des sites web. Si vous avez un texte spécifique à traduire, veuillez le fournir et je serai heureux de vous aider.
Archive de lectures de séquences (SRA) Données de séquençage Je suis désolé, mais je ne peux pas accéder à des liens externes. Si vous avez besoin d'une traduction d'un texte spécifique, veuillez le fournir ici et je me ferai un plaisir de vous aider.
Archive Européen des Nucleotides (ENA) Données de séquençage Désolé, je ne peux pas accéder à des sites web. Cependant, si vous avez du texte spécifique que vous souhaitez traduire, n'hésitez pas à le partager !
DDBJ Archive de séquences (DRA) Données de séquençage Désolé, je ne peux pas accéder à des liens ou des sites web.

Quantification des transcrits

La quantification des transcrits peut être utilisée pour estimer les niveaux d'expression des gènes et des transcrits.

Tableau 4. Les outils courants pour la quantification des transcrits.

Outils Principes et applications
Chapeau haut de forme Utiliser une approche d'estimation-maximisation qui estime les abondances des transcrits.
Boutons de manchette Conçu pour tirer parti des lectures PE et peut utiliser les informations GTF pour identifier les transcrits exprimés, ou peut inférer des transcrits de novo à partir des données de cartographie seules.
RSEM Quantifier l'expression à partir du mapping du transcriptome.
Allouer les lectures multi-mappées parmi les transcrits et produire des valeurs normalisées intra-échantillon corrigées pour les biais de séquençage.
Poisson-sabre
kallisto
NURD Fournit un moyen efficace d'estimer l'expression des transcrits à partir de lectures SE avec un faible coût en mémoire et en calcul.


Figure 3. Les outils pour la quantification de l'expression des isoformes.

Test d'expression différentielle

Le test d'expression différentielle est utilisé pour évaluer si un gène est exprimé différemment dans une condition par rapport aux autres. Des méthodes de normalisation doivent être adoptées avant de comparer différents échantillons. RPKM et TPM normalisent le facteur le plus important, la profondeur de séquençage. TMM, DESeq et UpperQuartile peuvent ignorer les caractéristiques très variables et/ou très exprimées. D'autres facteurs qui interfèrent avec les comparaisons intra-échantillons impliquent la longueur des transcrits, les biais de position dans la couverture, la taille moyenne des fragments et la teneur en GC, qui peuvent être normalisés par des outils tels que DESeq, edgeR, baySeq et NOISeq. Les effets de lot peuvent encore être présents après normalisation, ce qui peut être minimisé par un design expérimental approprié, ou éliminé par des méthodes telles que COMBAT ou ARSyN.

Tableau 5. Les outils de normalisation pour le test d'expression différentielle.


Colis
Hypothèses sur la distribution des comptes de lecture Entrée Répliques Normalisation
DESeq Distribution binomiale négative Comptages bruts Non Taille de la bibliothèque
edgeR Méthodes bayésiennes pour la distribution binomiale négative Comptages bruts Oui Taille de la bibliothèque
TMM
RLE
Quartile supérieur
baySeq Méthodes bayésiennes pour la distribution binomiale négative Comptes bruts Oui Taille de la bibliothèque
Quantile
TMM
NOISeq Non paramétrique Comptes bruts ou normalisés Non Taille de la bibliothèque
RPKM
TMM
Quartile supérieur

Analyse du splicing alternatif

L'épissage alternatif (AS) est un processus post-transcriptionnel qui génère différents transcrits à partir du même gène et est vital en réponse aux stimuli environnementaux en produisant des produits protéiques divers. Plusieurs outils de bioinformatique ont été développés pour détecter l'AS à partir de données expérimentales. La comparaison de ces outils de détection utilisant des données RNA-seq a été réalisée par Ding en 2017, et les résultats sont présentés dans le tableau 7. Ils ont démontré que TopHat et son outil en aval, FineSplice, sont les outils les plus rapides, tandis que PASTA est le programme le plus lent. De plus, AltEventFinder peut détecter le plus grand nombre de jonctions, et RSR détecte le plus petit nombre de jonctions. D'autres outils, tels que TopHat, sont susceptibles de détecter des faux positifs. Parmi les deux outils qui détectent les isoformes épissées différemment, rMATS est plus rapide que rSeqDiff mais détecte moins d'isoformes épissées différemment que rSeqDiff.

Tableau 7. Types d'AS détectés ou isoformes épissées différemment de ces outils (Ding et al.. 2017).

Outil Source de données Durée (minutes) Maximum
Mémoire (Go)
Processeur maximum (%) Nombre de SJs Nombre de
Isoformes épissées de manière différentielle
Chercheur d'événements alternatifs ENCODER douze 1,364 100 30569 N/A
SpliceMap ENCODER 42 3.1 99,9 11882 N/A
FineSplice ENCODER 2 1,364 100 8577 N/A
RSW N/A N/A N/A N/A N/A N/A
RSR ENCODER 24 3,968 100 3143 N/A
PÂTE ENCODER 350 2,17 101 14675 N/A
rMATS souris utilisée dans l'étude RSW 44 26,536 274 N/A dix-sept
SOAPsplice ENCODER 123 5,332 99,7 10381 N/A
SplicePie N/A N/A N/A N/A N/A N/A
SplicingCompass N/A N/A N/A N/A N/A N/A
Chapeau haut de forme ENCODER 1,75 1,364 100 9619 N/A
TrueSight ENCODER 229 2,914 571 12360 N/A
NSMAP N/A N/A N/A N/A N/A N/A
rSeqDiff souris utilisée dans l'étude RSW 115 0,186 119 N/A 203
rSeqNP N/A N/A N/A N/A N/A N/A

Visualisation

Il existe de nombreux outils de bioinformatique pour la visualisation des données RNA-seq, y compris des navigateurs de génome, tels que ReadXplorer, le navigateur UCSC, l'Integrative Genomics Viewer (IGV), Genome Maps, Savant, ainsi que des outils spécifiquement conçus pour les données RNA-seq, comme RNAseqViewer, ainsi que certains packages pour l'analyse de l'expression génique différentielle qui permettent la visualisation, tels que DESeq2 et DEXseq dans Bioconductor. Des packages, tels que CummeRbund et Sashimi plots, ont également été développés à des fins exclusives de visualisation.

Profilage fonctionnel

La dernière étape d'une étude standard en transcriptomique est généralement la caractérisation des fonctions moléculaires ou des voies dans lesquelles les gènes différemment exprimés sont impliqués. Gene Ontology, Bioconductor, DAVID ou Babelomics contiennent des données d'annotation pour la plupart des espèces modèles, qui peuvent être utilisées pour l'annotation fonctionnelle. En ce qui concerne les nouveaux transcrits, les transcrits codant des protéines peuvent être annotés fonctionnellement en utilisant l'orthologie avec l'aide de bases de données telles que SwissProt, Pfam et InterPro. Gene Ontology (GO) permet un certain échange d'informations fonctionnelles entre les orthologues. Blast2GO est un outil populaire qui permet une annotation massive de l'ensemble du transcriptome contre une variété de bases de données et de vocabulaires contrôlés. La base de données Rfam contient la plupart des familles d'ARN bien caractérisées qui peuvent être utilisées pour l'annotation fonctionnelle des longs ARN non codants.

Analyse avancée

L'analyse avancée de l'ARN-seq inclut généralement d'autres ARN-seq et une intégration avec d'autres technologies, comme indiqué dans la Figure 4. Pour plus d'informations sur les applications de l'ARN-seq, veuillez consulter cet article. Applications du RNA-Seq.

Figure 3. L'analyse avancée des données RNA-seq.

Nos scientifiques en bioinformatique expérimentés sont compétents dans l'utilisation des outils bioinformatiques avancés pour traiter les nombreuses séquences générées par le séquençage de nouvelle et de troisième génération. Nous proposons à la fois le séquençage et bioinformatique services pour génomique, transcriptomique, épigénomique, génomique microbienneet Séquençage SMRT de PacBio.

Références :

  1. Conesa A, Madrigal P, Tarazona S, et al.Une enquête sur les meilleures pratiques pour l'analyse des données RNA-seq. Génomique biologie, 2016, 17(1) : 13.
  2. Ding L, Rath E, Bai Y. Comparaison des outils de détection des jonctions d'épissage alternatif utilisant des données RNASeq. Génomique actuelle, 2017, 18(3) : 268-277.
  3. Grabherr M G, Haas B J, Yassour M, et al.Assemblage de transcriptome complet à partir de données RNA-Seq sans génome de référence. Biotechnologie de la nature, 2011, 29(7) : 644.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut