Analyse bioinformatique du séquençage des petits ARN

Les petits ARN sont des molécules fonctionnelles importantes dans les organismes, qui se divisent en trois catégories principales : les microARN (miARN), les petits ARN interférents (siARN) et les ARN interagissant avec piwi (piARN). Ils mesurent moins de 200 nt de long et ne sont souvent pas traduits en protéines. Les petits ARN accomplissent généralement l'interférence ARN (ARNi) en formant le noyau du complexe ARN-protéine (complexe de silençage induit par l'ARN, RISC). Séquençage des petits ARNun exemple de séquençage ciblé, est une méthode puissante pour le profilage des espèces de petits ARN et l'analyse génomique fonctionnelle. Ici, nous présentons les directives pour l'analyse bioinformatique du séquençage des petits ARN.

Bioinformatics Analysis of Small RNA Sequencing

Figure 1. Flux de travail de l'analyse bioinformatique du séquençage des petits ARN.

Tableau 1. Étapes et outils cruciaux pour l'analyse des données de séquençage des petits ARN (Buschmann et al.. 2016).

Étape	Considérer	Outils ou algorithmes recommandés
Prétraitement des données	Coupe des adaptateurs Suppression des courtes lectures	Btrim, FASTX-Toolkit
Contrôle de qualité	Taille de la bibliothèque et distribution des lectures entre les échantillons Score Phred par base / séquence Distribution de la longueur des lectures Évaluer la dégradation Vérifier les séquences sur-représentées	Btrim, FASTX-Toolkit, FaQCs
Alignement de lecture	Base de données de référence ou génome Annotation Taux de discordance Gestion des multi-lectures	Bowtie, BWA, HTSEQ, SAMtools, SOAP2
Normalisation	Tailles de bibliothèques et profondeur de séquençage Effets de lot Distribution des lectures Niveau de réplication Distribution des données Niveau de réplication	DESeq2, EdgeR, svaseq
Analyse DEG	Distribution des données Niveau de réplication Taux de fausses découvertes	DESsq2, EdgeR, SAMSeq, voom limma
Prédiction de cible	In silico prédiction ou validation expérimentale régulation des cibles canonique et non canonique	miRanda, miRTarBase, TarBase
Identification de biomarqueurs	Sensibilité Spécificité Taux de classification	DESeq2, Simca-Q, de nombreux packages R : base, pcaMethods, Mixomics

* DGE, expression génique différentielle.

Prétraitement des données brutes et contrôle de la qualité

Pour faciliter des alignements corrects, les données brutes doivent être coupées pour tenir compte des artefacts d'adaptateur et des séquences de longueurs inadéquates. Les lectures de moins de 16-18 nt représentant de l'ARN dégradé ou des dimères d'adaptateur doivent être supprimées. Des outils tels que Btrim, FASTX-Toolkit, FaQCs et cutadapt sont utilisés à cet effet. Cependant, cela n'est pas suffisant pour des ensembles de données de haute qualité et des alignements précis. Il existe des algorithmes tels que Quake et ALLPATHSLG, qui sont dédiés à la correction des appels de bases peu fiables en superposant les motifs les plus fréquents et similaires. Les lectures de faible qualité doivent également être supprimées partiellement ou complètement en fonction de leurs scores Phred. Les algorithmes de coupe de qualité populaires incluent Cutadapt, Btrim, FASTX Toolkit, FaQCs et SolexaQA.

Après le prétraitement des données et le contrôle de qualité, les lectures restantes doivent être débarrassées des séquences de faible qualité (score de qualité < 20) et des artefacts d'adaptateur, et les longueurs de lecture doivent présenter un pic distinct basé sur les espèces de petits ARN d'intérêt (par exemple, 21-23 nt pour les miARN et 30-32 nt pour les piARN).

Alignement des lectures de petits ARN

Les stratégies d'alignement de lectures impliquent le mappage sur un génome de référence ou des bases de données spécifiques de petits ARN telles que mirBase et Rfam. En plus de la comparaison avec des séquences spécifiques, des ensembles de données homologues provenant d'organismes bien étudiés sont également utiles en raison de la forte conservation des séquences de graine entre la plupart des espèces de petits ARN dans différentes espèces.

Tableau 2. Les outils courants pour le séquençage des petits ARN.

	Outils d'alignement des lectures de petits ARN	Évaluations ou recommandations
algorithme	Alignateur BLAST, suffixe / préfixe	Le suffixe / préfixe basé sur la transformation de Burrows-Wheeler est rapide et efficace pour le mappage.
logiciel	Bowtie, BWE, SOAP2	Une évaluation de la sensibilité et de la spécificité de la cartographie est fortement recommandée. Les recherches avec de grands ensembles de données ou un temps limité pourraient essayer BarraCUDA, SOAP3-dp ou MICA.

Normalisation

Les variations systématiques doivent être prises en compte avant l'analyse d'expression différentielle. Ce processus est appelé normalisation, qui traite des différences indésirables entre les bibliothèques en profondeur de séquençage, contenu en GC et effets de lot. La normalisation médiane des rapports d'expression à partir des moyennes géométriques s'est révélée efficace avec divers types de jeux de données. Zyprich-Walczak et al.. (2015) a proposé un flux de travail pour déterminer la méthode de normalisation la plus adaptée à un ensemble de données spécifique.

Analyse de l'expression différentielle

L'analyse de l'expression génique différentielle (DGE) est essentielle dans l'analyse des données de petits ARN, ce qui contribue à la prédiction des cibles et à l'identification de biomarqueurs. Il existe plusieurs bons outils à cet effet (Tableau 3), mais l'outil optimal dépend fortement du jeu de données spécifique.

Tableau 3. Outils pour l'analyse de l'expression différentielle des petits ARN.

Outils	Principes	Conditions applicables
edgeR	Une approche par vraisemblance pondérée envers la dispersion commune	Approprié pour des ensembles de données plus petits ; surpasse ses concurrents pour un faible nombre de réplicats.
DESeq	Modélise la relation moyenne-variance observée pour tous les gènes via la régression.	Approprié pour des ensembles de données plus petits ; Surpasse ses concurrents pour des expériences avec plus de 12 répliques.
SAMSeq	Basé sur les statistiques de rang de Wilcoxon et les stratégies de rééchantillonnage.	Approprié pour des ensembles de données avec des tailles d'échantillon suffisantes de 10 ou plus ; faible puissance et spécificité pour les expériences avec de petites tailles d'échantillon.
NOISeq	Compare les différences d'expression absolue et relative entre et au sein des conditions expérimentales.	Faible puissance et spécificité pour des expériences avec de petites tailles d'échantillon.
Voom + limma	Voom intègre la tendance moyenne-variance dans un poids de précision pour chaque observation normalisée individuelle. Limma inclut la modélisation linéaire, des poids quantitatifs et des méthodes statistiques bayésiennes empiriques.	Fonctionne bien avec différents ensembles de données.

Identification de biomarqueurs et prédiction de cibles

Les candidats biomarqueurs peuvent être identifiés par analyse d'expression différentielle. Les outils présentés dans le Tableau 1 peuvent également être utilisés pour l'identification de biomarqueurs. Les biomarqueurs de petits ARN détectés sont principalement basés sur les miARN. Il existe plusieurs outils et logiciels pour le in silico analyse fonctionnelle des miARN. Le package TargetScan, TargetFinder et miRanda peuvent être utilisés pour in silico prédiction des cibles. Les gènes cibles prédits sont ensuite analysés par l'analyse de l'Ontologie Génétique (GO) et l'analyse des voies KEGG.

Validation

Pour confirmer les résultats du séquençage des petits ARN, il est nécessaire d'examiner les petits ARN exprimés de manière différentielle par qRT-PCR. S'il s'avère que cela est cohérent avec les résultats du séquençage des petits ARN, les données de séquençage des petits ARN sont confidentielles et fiables. La signature de biomarqueur découverte peut donc être supposée après validation des données.

Lectures supplémentaires :

Le défi et le flux de travail du séquençage des petits ARN

Références :

Buschmann D., Haberberger A, Kirchner B, et al.Vers des signatures de biomarqueurs fiables à l'ère des biopsies liquides : comment standardiser le flux de travail de l'ARN-Seq de petite taille[J]. Recherche sur les acides nucléiques, 2016, 44(13) : 5995-6018.
Miao X, Luo Q, Zhao H, et al.Analyse génomique des miARN dans les ovaires des chèvres Jining Grey et Laiwu Black pour explorer la régulation de la fécondité. Rapports scientifiques, 2016, 6 : 37983.
Zyprych-Walczak J., et al.L'impact des méthodes de normalisation sur l'analyse des données RNA-Seq. Rech. Biomed. Int.., 2015, doi:10.1155/2015/621690.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés