Les petits ARN sont des molécules fonctionnelles importantes dans les organismes, qui se divisent en trois catégories principales : les microARN (miARN), les petits ARN interférents (siARN) et les ARN interagissant avec piwi (piARN). Ils mesurent moins de 200 nt de long et ne sont souvent pas traduits en protéines. Les petits ARN accomplissent généralement l'interférence ARN (ARNi) en formant le noyau du complexe ARN-protéine (complexe de silençage induit par l'ARN, RISC). Séquençage des petits ARNun exemple de séquençage ciblé, est une méthode puissante pour le profilage des espèces de petits ARN et l'analyse génomique fonctionnelle. Ici, nous présentons les directives pour l'analyse bioinformatique du séquençage des petits ARN.

Figure 1. Flux de travail de l'analyse bioinformatique du séquençage des petits ARN.
Tableau 1. Étapes et outils cruciaux pour l'analyse des données de séquençage des petits ARN (Buschmann et al.. 2016).
| Étape | Considérer | Outils ou algorithmes recommandés |
| Prétraitement des données | Coupe des adaptateurs Suppression des courtes lectures | Btrim, FASTX-Toolkit |
| Contrôle de qualité | Taille de la bibliothèque et distribution des lectures entre les échantillons Score Phred par base / séquence Distribution de la longueur des lectures Évaluer la dégradation Vérifier les séquences sur-représentées | Btrim, FASTX-Toolkit, FaQCs |
| Alignement de lecture | Base de données de référence ou génome Annotation Taux de discordance Gestion des multi-lectures | Bowtie, BWA, HTSEQ, SAMtools, SOAP2 |
| Normalisation | Tailles de bibliothèques et profondeur de séquençage Effets de lot Distribution des lectures Niveau de réplication Distribution des données Niveau de réplication | DESeq2, EdgeR, svaseq |
| Analyse DEG | Distribution des données Niveau de réplication Taux de fausses découvertes | DESsq2, EdgeR, SAMSeq, voom limma |
| Prédiction de cible | In silico prédiction ou validation expérimentale régulation des cibles canonique et non canonique | miRanda, miRTarBase, TarBase |
| Identification de biomarqueurs | Sensibilité Spécificité Taux de classification | DESeq2, Simca-Q, de nombreux packages R : base, pcaMethods, Mixomics |
* DGE, expression génique différentielle.
Prétraitement des données brutes et contrôle de la qualité
Pour faciliter des alignements corrects, les données brutes doivent être coupées pour tenir compte des artefacts d'adaptateur et des séquences de longueurs inadéquates. Les lectures de moins de 16-18 nt représentant de l'ARN dégradé ou des dimères d'adaptateur doivent être supprimées. Des outils tels que Btrim, FASTX-Toolkit, FaQCs et cutadapt sont utilisés à cet effet. Cependant, cela n'est pas suffisant pour des ensembles de données de haute qualité et des alignements précis. Il existe des algorithmes tels que Quake et ALLPATHSLG, qui sont dédiés à la correction des appels de bases peu fiables en superposant les motifs les plus fréquents et similaires. Les lectures de faible qualité doivent également être supprimées partiellement ou complètement en fonction de leurs scores Phred. Les algorithmes de coupe de qualité populaires incluent Cutadapt, Btrim, FASTX Toolkit, FaQCs et SolexaQA.
Après le prétraitement des données et le contrôle de qualité, les lectures restantes doivent être débarrassées des séquences de faible qualité (score de qualité < 20) et des artefacts d'adaptateur, et les longueurs de lecture doivent présenter un pic distinct basé sur les espèces de petits ARN d'intérêt (par exemple, 21-23 nt pour les miARN et 30-32 nt pour les piARN).
Alignement des lectures de petits ARN
Les stratégies d'alignement de lectures impliquent le mappage sur un génome de référence ou des bases de données spécifiques de petits ARN telles que mirBase et Rfam. En plus de la comparaison avec des séquences spécifiques, des ensembles de données homologues provenant d'organismes bien étudiés sont également utiles en raison de la forte conservation des séquences de graine entre la plupart des espèces de petits ARN dans différentes espèces.
Tableau 2. Les outils courants pour le séquençage des petits ARN.
| Outils d'alignement des lectures de petits ARN | Évaluations ou recommandations | |
| algorithme | Alignateur BLAST, suffixe / préfixe | Le suffixe / préfixe basé sur la transformation de Burrows-Wheeler est rapide et efficace pour le mappage. |
| logiciel | Bowtie, BWE, SOAP2 | Une évaluation de la sensibilité et de la spécificité de la cartographie est fortement recommandée. Les recherches avec de grands ensembles de données ou un temps limité pourraient essayer BarraCUDA, SOAP3-dp ou MICA. |
Normalisation
Les variations systématiques doivent être prises en compte avant l'analyse d'expression différentielle. Ce processus est appelé normalisation, qui traite des différences indésirables entre les bibliothèques en profondeur de séquençage, contenu en GC et effets de lot. La normalisation médiane des rapports d'expression à partir des moyennes géométriques s'est révélée efficace avec divers types de jeux de données. Zyprich-Walczak et al.. (2015) a proposé un flux de travail pour déterminer la méthode de normalisation la plus adaptée à un ensemble de données spécifique.
Analyse de l'expression différentielle
L'analyse de l'expression génique différentielle (DGE) est essentielle dans l'analyse des données de petits ARN, ce qui contribue à la prédiction des cibles et à l'identification de biomarqueurs. Il existe plusieurs bons outils à cet effet (Tableau 3), mais l'outil optimal dépend fortement du jeu de données spécifique.
Tableau 3. Outils pour l'analyse de l'expression différentielle des petits ARN.
| Outils | Principes | Conditions applicables |
| edgeR | Une approche par vraisemblance pondérée envers la dispersion commune | Approprié pour des ensembles de données plus petits ; surpasse ses concurrents pour un faible nombre de réplicats. |
| DESeq | Modélise la relation moyenne-variance observée pour tous les gènes via la régression. | Approprié pour des ensembles de données plus petits ; Surpasse ses concurrents pour des expériences avec plus de 12 répliques. |
| SAMSeq | Basé sur les statistiques de rang de Wilcoxon et les stratégies de rééchantillonnage. | Approprié pour des ensembles de données avec des tailles d'échantillon suffisantes de 10 ou plus ; faible puissance et spécificité pour les expériences avec de petites tailles d'échantillon. |
| NOISeq | Compare les différences d'expression absolue et relative entre et au sein des conditions expérimentales. | Faible puissance et spécificité pour des expériences avec de petites tailles d'échantillon. |
| Voom + limma | Voom intègre la tendance moyenne-variance dans un poids de précision pour chaque observation normalisée individuelle. Limma inclut la modélisation linéaire, des poids quantitatifs et des méthodes statistiques bayésiennes empiriques. | Fonctionne bien avec différents ensembles de données. |
Identification de biomarqueurs et prédiction de cibles
Les candidats biomarqueurs peuvent être identifiés par analyse d'expression différentielle. Les outils présentés dans le Tableau 1 peuvent également être utilisés pour l'identification de biomarqueurs. Les biomarqueurs de petits ARN détectés sont principalement basés sur les miARN. Il existe plusieurs outils et logiciels pour le in silico analyse fonctionnelle des miARN. Le package TargetScan, TargetFinder et miRanda peuvent être utilisés pour in silico prédiction des cibles. Les gènes cibles prédits sont ensuite analysés par l'analyse de l'Ontologie Génétique (GO) et l'analyse des voies KEGG.
Validation
Pour confirmer les résultats du séquençage des petits ARN, il est nécessaire d'examiner les petits ARN exprimés de manière différentielle par qRT-PCR. S'il s'avère que cela est cohérent avec les résultats du séquençage des petits ARN, les données de séquençage des petits ARN sont confidentielles et fiables. La signature de biomarqueur découverte peut donc être supposée après validation des données.
Lectures supplémentaires :
Le défi et le flux de travail du séquençage des petits ARN
Références :