Séquençage des petits ARN : Méthodes, Flux de travail, Plateforme et Applications
Le séquençage des petits ARN (sRNA-seq) cible la classe de molécules d'ARN non codantes de moins de 200 nucléotides, y compris les microARN (miARN), les ARN interagissant avec Piwi (piARN), les petits ARN interférents (siARN) et les petits ARN dérivés des tRNA (tsARN). Contrairement à l'ARN messager, ces molécules ne sont pas traduites en protéines mais fonctionnent comme des régulateurs de l'expression génique aux niveaux transcriptionnel et post-transcriptionnel. Leur petite taille, leur hétérogénéité et leurs propriétés biochimiques distinctes créent des défis uniques tant pour la préparation des bibliothèques que pour l'analyse bioinformatique, qui ne se posent pas dans les flux de travail standard de séquençage d'ARN.
Ce guide est rédigé pour les chercheurs ayant une connaissance de base du RNA-seq et ayant besoin d'un aperçu pratique et orienté vers la décision du séquençage des petits ARN. Il couvre les classes de sRNA pertinentes pour la recherche biomédicale, les méthodes de préparation de bibliothèques et leurs profils de biais, les outils bioinformatiques spécialisés nécessaires pour les données de sRNA-seq, et les applications émergentes dans la biopsie liquide et la recherche sur les miARN circulants. L'accent est mis tout au long du texte sur la manière dont les choix méthodologiques affectent la qualité des données et l'interprétation biologique, fournissant le contexte nécessaire pour concevoir des expériences qui génèrent des résultats reproductibles et pour évaluer de manière critique les résultats publiés qui peuvent avoir été générés à l'aide de protocoles et de pipelines d'analyse différents.
Contrairement à l'ARNm-seq, où les protocoles standard produisent des résultats comparables entre les laboratoires, les résultats de l'ARNs-seq sont très sensibles à la méthode spécifique de préparation de la bibliothèque, à la conception des adaptateurs et au pipeline bioinformatique utilisé. Deux laboratoires étudiant le même échantillon biologique avec des protocoles d'ARNs-seq différents peuvent produire des listes de miARN détectés substantiellement différentes et des rapports d'expression différents. Comprendre cette sensibilité méthodologique est essentiel pour concevoir des expériences, évaluer la littérature publiée et comparer les résultats entre études indépendantes afin de tirer des conclusions biologiques solides.
Services de séquençage de petits ARN couvrir l'ensemble du flux de travail, de la préparation des bibliothèques à l'analyse bioinformatique, avec des protocoles optimisés pour différentes classes de sRNA, types d'échantillons et objectifs de recherche à travers une large gamme de systèmes biologiques.
Que sont les petits ARN et pourquoi les séquencer ?
Les petits ARN sont un groupe diversifié de molécules d'ARN non codantes qui régulent l'expression des gènes par des interactions spécifiques de séquence avec des ARNm cibles ou la chromatine. Les quatre principales classes pertinentes pour les projets de séquençage d'ARNs petits diffèrent par leur taille, leur voie de biogenèse et leur mécanisme d'action.
- microARN (miARN)D'une longueur d'environ 22 nt, les miARN se lient à des séquences complémentaires dans l'UTR 3' des ARNm cibles pour réprimer la traduction ou promouvoir la dégradation des ARNm. Plus de 2 600 miARN matures ont été annotés dans le génome humain, et la dysrégulation de l'expression des miARN est impliquée dans pratiquement toutes les grandes catégories de maladies, y compris le cancer, les maladies cardiovasculaires et les troubles neurologiques.
- ARN interagissant avec Piwi (piARN)Mesurant de 24 à 31 nucléotides de long, les piARN sont principalement exprimés dans les cellules germinales et fonctionnent dans le silençage des transposons. Leur rôle dans les tissus somatiques et les maladies est un domaine de recherche actif.
- Petits ARN interférents (siARN): 20-24 nt dans les plantes et les invertébrés, les siARN sont dérivés de l'ARN double brin et guident un silençage génique spécifique à la séquence. Chez les mammifères, les siARN endogènes sont moins présents, mais les siARN synthétiques sont largement utilisés comme outils de recherche et agents thérapeutiques.
- petits ARN dérivés de l'ARNt (tsARN)Des fragments de 18 à 40 nt dérivés d'ARNt matures ou précurseurs, les tsARN émergent en tant que régulateurs importants de l'expression génique et ont été identifiés comme des composants abondants du répertoire d'ARN circulant dans les biofluides.
L'analyse des petits ARN par séquençage offre plusieurs avantages par rapport aux méthodes traditionnelles telles que le Northern blotting ou le qPCR. Le sRNA-seq permet une découverte non biaisée à la fois des petits ARN connus et nouveaux, quantifie l'expression sur l'ensemble de l'éventail dynamique et détecte des variations au niveau des isoformes (isomiRs) que les méthodes basées sur l'hybridation ne peuvent pas résoudre. Le compromis est que le sRNA-seq nécessite des protocoles de préparation de bibliothèque spécialisés pour gérer les courtes entrées d'ARN, et l'analyse bioinformatique doit relever des défis d'alignement et de quantification uniques aux données de petits ARN à lecture courte.
Figure 1 : Principales classes de petits ARN — plage de taille, biogenèse et fonctions biologiques
Préparation de bibliothèques de petits ARN — Quatre méthodes et leurs profils de biais
La préparation de bibliothèques pour le sRNA-seq est plus exigeante sur le plan technique que la préparation de bibliothèques pour le RNA-seq standard, car les ARN cibles sont courts (18-200 nt) et doivent être capturés sans introduire de biais sévère dépendant de la séquence. Quatre approches méthodologiques sont disponibles, chacune ayant des caractéristiques de biais distinctes qui affectent les petits ARN détectés et quantifiés.
Méthodes basées sur la polyadénylationUne queue poly(A) est ajoutée à l'extrémité 3' des petits ARN, suivie d'un amorçage oligo-dT pour la transcription inverse. Cette méthode évite l'étape de ligation qui introduit un biais dans d'autres protocoles. Le compromis est que l'efficacité de la polyadénylation varie selon la séquence et la structure de l'ARN, et certains petits ARN sont modifiés de manière préférentielle par la poly(A) polymérase.
Méthodes basées sur la ligation directeLes adaptateurs d'ARN sont ligaturés de manière séquentielle aux extrémités 3' et 5' des petits ARN avant la transcription inverse et l'amplification par PCR. C'est l'approche la plus couramment utilisée, mise en œuvre dans des kits commerciaux tels que les kits Illumina TruSeq Small RNA et QIAGEN QIAseq miRNA Library. La principale source de biais est l'efficacité de ligature différentielle : la ligature des adaptateurs à certaines séquences de miARN est jusqu'à 100 fois plus efficace que pour d'autres, en fonction de la composition en nucléotides 3' et de la structure secondaire du petit ARN.
Méthodes basées sur la sélection de tailleLes petits ARN sont isolés par électrophorèse sur gel ou sélection de taille basée sur des billes SPRI avant la ligation des adaptateurs. Cela permet d'éliminer les espèces d'ARN plus grandes (ARNm, ARNr) qui domineraient autrement la sortie de séquençage. Le biais est principalement dépendant de la taille : les petits ARN aux limites de la fenêtre de sélection peuvent être sous-représentés.
Méthodes modifiées pour des classes spécifiquesDes protocoles spécialisés existent pour des classes spécifiques de sRNA. Par exemple, les protocoles axés sur les piRNA utilisent l'oxydation par periodate pour bloquer les extrémités 3' des molécules non-piRNA, enrichissant spécifiquement les piRNAs. Les protocoles axés sur les tsRNA modifient les conditions de ligature des adaptateurs pour capturer les extrémités 3' modifiées caractéristiques des fragments d'ARNt.
| Méthode | Biais principal | ARN requis nécessaire | Mieux adapté pour |
|---|---|---|---|
| Basé sur la polyadénylation | Efficacité de la polyadénylation dépendante de la séquence | 100-500 ng | profilage des miARN, découverte de nouveaux sARN |
| Basé sur la ligation directe | biais de ligation 3' (plage de 10 à 100×) | 10-1000 ng | Dépistage de miARN à haut débit, flux de travail standard |
| Basé sur la sélection de taille | Récupération dépendante de la taille aux frontières de la fenêtre | 500 ng - 5 µg | Profilage des sRNA larges incluant les piARN et les tsARN |
| Modifié spécifique à la classe | Enrichi pour une classe aux dépens des autres | 100-500 ng | Analyse ciblée des piARN, tsARN ou d'autres classes spécifiques |
Pour les projets nécessitant une détection non biaisée des miARN sur une large plage dynamique, les méthodes de ligation directe avec des séquences d'adaptateurs randomisées réduisent le biais de ligation par rapport aux adaptateurs fixes. services de séquençage de miARN utilisez des protocoles de ligation optimisés pour minimiser le biais et maximiser la sensibilité de détection.
Figure 2 : Biais de préparation de bibliothèque — l'efficacité de ligation varie selon la séquence de l'ARNmi
Le flux de travail de séquençage des petits ARN — Étape par étape
Le flux de travail standard de sRNA-seq suit six étapes, chacune avec des points de contrôle de qualité spécifiques qui diffèrent de ceux du RNA-seq standard en raison de la petite taille des molécules cibles et des propriétés biochimiques uniques des petits ARN.
- Échantillonnage de contrôle qualité et évaluation de l'intégrité de l'ARNL'intégrité de l'ARN est évaluée à l'aide du score RIN (RIN ≥ 7 pour la plupart des applications) ou du DV200 pour les échantillons FFPE. Pour l'analyse spécifique de l'ARNs, la proportion d'ARNs petits par rapport à l'ARN total est également évaluée — les échantillons avec une forte dégradation de l'ARN peuvent avoir un profil d'ARNs petits décalé. La fraction d'ARNs petits (ARNs <200 nt) peut être enrichie par des colonnes d'exclusion de taille ou une purification basée sur des billes SPRI avant la préparation de la bibliothèque, améliorant ainsi la proportion de lectures d'ARNs petits informatives dans les données finales.
- Préparation de la bibliothèqueLes petits ARN sont sélectionnés par taille ou enrichissement biochimique, puis convertis en bibliothèques prêtes pour le séquençage par ligature d'adaptateurs, transcription inverse et amplification par PCR.
- Sélection de tailleLa bibliothèque est sélectionnée par taille pour éliminer les dimères d'adaptateurs (~120 pb) et les grands fragments (>200 pb). La plage de taille cible pour les bibliothèques de miARN est d'environ 140-160 pb (insertion de 22 nt + adaptateurs).
- Contrôle qualité de la bibliothèqueLa concentration finale de la bibliothèque est mesurée par qPCR, et la distribution de taille est confirmée par Bioanalyzer ou TapeStation. Le contenu en dimères d'adaptateurs doit être <5 % de la masse totale de la bibliothèque. La bibliothèque finale doit dépasser 2 nM pour une génération de clusters fiable sur les cellules de flux Illumina.
- SéquençageLe séquençage en simple sens de 50 pb est suffisant pour la plupart des applications de miARN, car le miARN typique ne mesure que 22 nt. Pour la détection des piARN ou des tsARN, 50 pb offre également une couverture adéquate. Le séquençage en double sens n'est généralement pas nécessaire pour le sRNA-seq.
- Analyse de donnéesLes lectures brutes sont prétraitées pour éliminer les séquences d'adaptateurs, alignées sur le génome de référence ou sur des bases de données sRNA connues, quantifiées au niveau des miARN ou des isomiR, et analysées pour l'expression différentielle.
Analyse bioinformatique des données de séquençage de petits ARN
Le pipeline de bioinformatique pour le sRNA-seq diffère du RNA-seq standard de plusieurs manières importantes. La longueur de lecture courte (50 pb contre 150 pb pour le mRNA-seq), la présence de modifications de l'ARN et la nature de multi-mappage des petits ARN nécessitent des outils et des approches d'analyse spécialisés.
Prétraitement et découpe de l'adaptateurLes lectures brutes de sRNA-seq contiennent la séquence complète de l'ARN petit ainsi que l'adaptateur 3'. Étant donné que les ARN petits sont plus courts que la longueur de lecture, la séquence de l'adaptateur est présente dans la plupart des lectures et doit être coupée avant l'alignement. Des outils comme Cutadapt et fastp avec des paramètres spécifiques aux ARN petits suppriment l'adaptateur tout en conservant l'insertion. L'exactitude de la coupe de l'adaptateur est essentielle : un sous-découpage laisse des séquences d'adaptateur qui interfèrent avec l'alignement, tandis qu'un sur-découpage élimine de véritables séquences d'ARN petit et réduit les taux de cartographie. Une étape de contrôle qualité après la coupe devrait confirmer que la distribution de la longueur des lectures correspond à la plage de taille attendue des ARN petits (18-31 nt pour les miARN).
Alignement de lectureLes lectures de petits ARN peuvent se mapper à plusieurs emplacements dans le génome en raison de la similarité de séquence entre les membres de la famille des miARN, les pseudogènes et les éléments répétitifs. Les aligneurs standard (Bowtie, BWA) peuvent effectuer un multi-mappage, mais la stratégie d'analyse doit décider comment traiter les lectures qui se mappent à plusieurs loci — les options incluent la conservation uniquement des lectures mappant de manière unique, la distribution proportionnelle des lectures multi-mappantes, ou l'utilisation d'une attribution probabiliste. miRDeep2 et sRNAbench sont des outils spécialisés qui gèrent le multi-mappage et quantifient les miARN connus et nouveaux.
Quantification et expression différentielleL'expression des miARN est quantifiée en tant que nombre de lectures par locus de miARN. Les méthodes de normalisation pour le séquençage de miARN incluent TPM, la médiane des ratios de DESeq2 (qui fonctionne sur des données de comptage), et des méthodes qui tiennent compte du nombre total différent de lectures mappées entre les échantillons. L'analyse de l'expression différentielle utilise les mêmes outils que le séquençage de l'ARNm (DESeq2, edgeR) mais avec la reconnaissance que les données de séquençage de miARN ont des propriétés de distribution différentes en raison du nombre plus faible de caractéristiques (~2 000 miARN contre ~20 000 ARNm). Le fardeau de correction pour les tests multiples est plus faible pour les miARN, ce qui signifie qu'une plus grande proportion de résultats nominalement significatifs survivent à la correction FDR par rapport au séquençage de l'ARNm. Pour les projets axés sur des candidats spécifiques de miARN, l'application d'un seuil de signification plus strict (par exemple, FDR < 0,01 au lieu de FDR < 0,05) peut réduire les résultats faussement positifs.
Détection des IsomiRLes IsomiRs sont des variantes de séquence de miARN qui diffèrent de la séquence canonique de miARN par un raccourcissement en 5' ou en 3', des ajouts de nucléotides ou des substitutions. L'analyse des IsomiRs nécessite des outils spécialisés qui alignent les lectures sur la boucle de précurseur de miARN et classifient les variantes. Cette analyse est de plus en plus reconnue comme importante car différents IsomiRs peuvent avoir des spécificités cibles et des fonctions biologiques différentes.
Figure 3 : Pipeline bioinformatique de l'ARN petit — des lectures brutes à l'expression différentielle
Biais de préparation de bibliothèque — Pourquoi le choix de la méthode détermine la qualité des données
Le choix de la méthode de préparation de bibliothèque a un impact plus profond sur la qualité des données sRNA-seq que sur le RNA-seq standard, car les courtes molécules cibles sont directement affectées par les étapes biochimiques de la ligation des adaptateurs et de la transcription inverse.
Le biais de ligature est la principale source de variation technique.La ligase T4 ARN, l'enzyme utilisée pour la ligation des adaptateurs dans la plupart des protocoles de séquençage d'ARNs courts (sRNA-seq), montre une forte préférence pour certains nucléotides terminaux 3'. Les miARN se terminant par de la guanosine (G) sont ligaturés jusqu'à 100 fois plus efficacement que ceux se terminant par de la cytidine (C) ou de l'adénosine (A). Cela signifie que l'abondance relative des miARN détectés reflète à la fois l'expression biologique et l'efficacité de ligation — un miARN qui est biologiquement abondant mais qui a un nucléotide terminal 3' défavorable peut apparaître sous-représenté par rapport à un miARN moins abondant avec un nucléotide terminal favorable.
Biais GC et préférence de tailleAu-delà du biais de ligation 3', la préparation de bibliothèques sRNA-seq montre également un biais de contenu en GC : les miARN avec un contenu en GC équilibré sont récupérés plus efficacement que ceux avec un contenu en GC extrême. La préférence de taille affecte également la détection, les très courts ARN (<18 nt) et les petits ARN plus longs (>30 nt) étant récupérés avec une efficacité inférieure à celle de la plage optimale de 20-25 nt pour la plupart des enzymes de ligation. Ces biais combinés signifient que le profil d'expression des miARN mesuré est une convolution de l'expression biologique réelle et du profil de biais de la méthode de préparation de la bibliothèque.
Implications pratiques pour la conception expérimentaleLors de la comparaison de l'expression des miARN entre différentes conditions au sein du même expérience en utilisant le même protocole, ces biais affectent tous les échantillons de manière égale et les comparaisons relatives restent valides. Le danger survient lors de la comparaison de données générées avec différentes méthodes de préparation de bibliothèques : un miARN qui semble être régulé à la hausse de 5 fois dans un protocole peut être régulé à la hausse de 2 fois dans un autre en raison de biais différentiels. Pour les comparaisons entre plusieurs études ou les méta-analyses, utiliser uniquement des données générées avec le même protocole est l'approche la plus sûre. Pour les projets où la comparabilité entre protocoles est requise, des méthodes basées sur la polyadénylation qui évitent la ligature peuvent être préférées malgré leur rendement global inférieur. Une stratégie alternative consiste à utiliser des échantillons d'ARN de référence disponibles dans le commerce avec des concentrations de miARN connues pour calibrer le profil de biais de chaque protocole.
Stratégies pour réduire le biais de ligatureLes séquences d'adaptateurs randomisées (où les adaptateurs 5' et 3' contiennent des nucléotides dégénérés au niveau de la jonction de ligation) réduisent la préférence de séquence de la réaction de ligation. Les kits commerciaux utilisant cette approche incluent le QIAGEN QIAseq miRNA Library Kit et le NEXTFLEX Small RNA-Seq Kit. Une autre stratégie consiste à utiliser une méthode basée sur la polyadénylation qui évite complètement la ligation, au prix d'introduire un biais de polyadénylation. L'approche la plus efficace pour minimiser le biais est d'utiliser une combinaison d'adaptateurs randomisés et de conditions de ligation optimisées (température, concentration d'enzyme et temps d'incubation), ce qui peut réduire la plage de biais de 100 fois à environ 5-10 fois.
Conseils pratiquesPour les projets comparant l'expression des miARN dans différentes conditions au sein du même laboratoire en utilisant le même protocole, le biais est systématique et ne devrait pas affecter les comparaisons relatives. Pour les projets comparant les niveaux d'expression absolue ou intégrant des données provenant de différents protocoles, le biais peut être substantiel et doit être pris en compte dans la conception expérimentale. Pour les projets où la quantification absolue est critique, des contrôles de spike-in (oligonucléotides d'ARN synthétiques à des concentrations connues) doivent être ajoutés à chaque échantillon avant la préparation de la bibliothèque.
Figure 4 : Profil de biais de ligation — l'efficacité de ligation relative varie selon le nucléotide 3' du miARN
Défis en bioinformatique spécifiques au séquençage des petits ARN
Trois défis en bioinformatique sont spécifiques au sRNA-seq et nécessitent des approches analytiques non utilisées dans le RNA-seq standard.
Lectures multi-mappéesLes lectures courtes provenant du sRNA-seq (18-50 pb après le retrait des adaptateurs) se cartographient fréquemment à plusieurs emplacements dans le génome. Les membres de la famille des miARN partagent souvent la même séquence de graine (positions 2-8) et diffèrent uniquement dans la région 3'. Lorsqu'une lecture de 22 nt se cartographie à cinq loci différents de miARN, la quantification doit décider quel locus a contribué à la lecture. miRDeep2 utilise un cadre bayésien pour attribuer les lectures à cartographie multiple en fonction de la probabilité que chaque locus soit exprimé, tandis que d'autres outils se contentent d'utiliser uniquement les lectures à cartographie unique (ce qui sous-estime l'expression des familles de miARN à copies multiples). La décision entre ces approches doit être documentée dans la section des méthodes, car elle affecte directement le nombre de miARN détectés et leurs valeurs d'expression relatives.
Classification des IsomiRChaque gène miARN produit plusieurs variantes de séquence (isomiRs) qui diffèrent de la séquence de référence canonique. Les isomiRs de type modèle proviennent d'une clivage imprécis par Drosha ou Dicer, produisant des extrémités 5' ou 3' décalées. Les isomiRs non modèles présentent des ajouts de nucléotides (typiquement une adénylation ou une uridylation) à l'extrémité 3'. Distinguer les véritables isomiRs des erreurs de séquençage nécessite une modélisation statistique du taux d'erreur et une comparaison avec la séquence miARN attendue. Des outils comme isomiR-SEA et CPSS détectent et quantifient les isomiRs en alignant les lectures sur les épingles de précurseurs de miARN plutôt que sur les séquences de miARN matures. La pertinence biologique des isomiRs est un domaine de recherche actif, avec des preuves que des isomiRs spécifiques peuvent avoir une spécificité de cible modifiée par rapport au miARN canonique.
Classification des fragments de sRNAUne fraction substantielle des lectures sRNA-seq est constituée de fragments de RNAs plus grands (mRNA, rRNA, tRNA, lncRNA) plutôt que de véritables petits ARN régulateurs. Distinguer les lectures de miRNA et de piRNA des produits de dégradation nécessite un alignement contre des bases de données de séquences pour chaque classe de sRNA et un filtrage basé sur des caractéristiques telles que la distribution de la longueur des lectures, l'origine génomique et la présence de modifications de l'ARN. Des outils comme sRNAbench et miRMaster automatisent cette classification en alignant séquentiellement les lectures sur les bases de données de miRNA, piRNA, tRNA et d'autres ARN, et en rapportant la proportion attribuée à chaque classe. Pour les échantillons de sRNA-seq circulants, où la proportion de lectures de miRNA peut être aussi basse que 10-20 %, cette étape de classification est essentielle pour obtenir des profils d'expression de miRNA interprétables.
Figure 5 : Défis bioinformatiques de l'sRNA-seq — multi-mappage, isomiRs et classification des fragments
Applications émergentes — Biopsie liquide et miARN circulants
L'une des applications à la croissance la plus rapide du sRNA-seq est l'analyse des petits ARN circulants dans les biofluides pour la découverte de biomarqueurs non invasifs.
Les miARN sont présents de manière stable dans le sang, le sérum, le plasma, l'urine et d'autres biofluides, protégés de la dégradation par les RNases grâce à leur encapsulation dans des exosomes, des microvésicules ou leur liaison aux protéines Argonaute. Les profils de miARN circulants ont montré qu'ils reflètent des états pathologiques, y compris le cancer, les maladies cardiovasculaires et les troubles neurologiques, ce qui en fait des candidats prometteurs pour des diagnostics basés sur la biopsie liquide. Des études récentes sur de grandes cohortes ont démontré que des panels de 10 à 50 miARN circulants peuvent distinguer les patients atteints de cancer des témoins sains avec une grande sensibilité et spécificité.
Défis techniques du séquençage sRNA circulantLa concentration de petits ARN dans les biofluides est extrêmement faible — typiquement de 1 à 50 ng d'ARN total par mL de plasma ou de sérum. Les protocoles de préparation de bibliothèque doivent être optimisés pour un faible apport, le risque de contamination par des dimères d'adaptateurs étant majeur, car l'ARN d'insertion limité peut ne pas surpasser les produits de ligation d'adaptateur à adaptateur. Des index uniques doubles (UDI) sont recommandés pour les projets multiplexés de miARN circulants afin de prévenir le saut d'index entre les échantillons, ce qui compromettrait l'exactitude de la détection des miARN à faible abondance.
Considérations sur l'analyse des donnéesLes ensembles de données sRNA-seq circulants contiennent souvent une proportion élevée de lectures non-miRNA, y compris des fragments d'ARNm, des fragments d'ARNr et des fragments d'ARN Y. Le pipeline bioinformatique doit explicitement classer et filtrer ces lectures non-miRNA avant l'analyse en aval. La normalisation des données de miARN circulants est également difficile car le contenu total en ARN varie entre les individus et entre les types de biofluides — l'utilisation de contrôles de spike-in ou de normalisation par expression moyenne est recommandée. La grande variabilité entre les individus dans les niveaux de miARN circulants signifie que des tailles de cohortes plus importantes sont généralement nécessaires pour les études de découverte de biomarqueurs utilisant sRNA-seq par rapport aux études basées sur des tissus. Pour détecter des changements de 1,5 fois avec une puissance statistique adéquate, 30 à 50 échantillons par groupe sont généralement nécessaires pour les études de miARN circulants.
ARN exosomal vs. ARN circulant totalUne décision clé de conception expérimentale dans le séquençage d'ARN circulants (sRNA-seq) est de savoir s'il faut séquencer l'ARN à partir d'exosomes isolés ou à partir de l'ARN total des biofluides. L'ARN exosomal est enrichi en populations spécifiques de miARN et contient moins d'ARNm et d'ARNr contaminant, ce qui peut améliorer la détection des miARN circulants à faible abondance. L'ARN total des biofluides capture une représentation plus large des ARN circulants, y compris les miARN libres de vésicules liés aux protéines Argonaute. Le choix doit être guidé par la question de recherche : l'ARN exosomal est préféré pour la découverte de biomarqueurs axée sur des populations de vésicules spécifiques, tandis que l'ARN circulant total fournit une vue plus complète du transcriptome circulant.
Applications agricoles du sRNA-seqle séquençage des petits ARN est de plus en plus utilisé dans la recherche sur les plantes et l'agriculture. Les plantes produisent une diversité de petits ARN, y compris des siARN de 21-22 nt impliqués dans la défense antivirale et des siARN de 24 nt qui guident la méthylation de l'ADN. Le sRNA-seq permet de caractériser ces populations de petits ARN dans les cultures sous conditions de stress, d'identifier de nouveaux miARN régulant des traits agronomiques et d'analyser l'interférence ARN inter-royaumes médiée par des nanoparticules de type exosome dérivées des plantes. Pour les chercheurs travaillant sur la biologie des petits ARN des plantes, services de séquençage de petits ARN offrir des protocoles optimisés pour l'ARN végétal avec ses structures secondaires uniques et ses profils de modification. Pour les projets axés sur les biomarqueurs de miARN circulants, des protocoles spécialisés pour des échantillons de biofluides à faible entrée sont disponibles, minimisant la formation de dimères d'adaptateurs et incluant des contrôles de spike-in pour une quantification absolue.
Figure 6 : Pièges courants de l'analyse sRNA-seq — problèmes, causes et solutions
Exigences informatiques pour les projets de séquençage de petits ARN
Les projets de sRNA-seq génèrent substantiellement moins de données par échantillon que les projets de mRNA-seq, rendant les exigences informatiques plus modestes.
- Données par échantillonUn séquençage standard de miARN à 10 millions de lectures par échantillon produit environ 500 Mo de données FASTQ. Pour un projet de 48 échantillons, prévoyez environ 25 Go de données brutes.
- Exigences de stockageLe stockage total, y compris les lectures tronquées, les fichiers alignés et les résultats d'analyse, est d'environ 50 à 100 Go pour un projet de 48 échantillons.
- Temps de calculAnalyse miRDeep2 : 30-60 minutes par échantillon. Expression différentielle : 10-30 minutes au total. Alignement avec Bowtie : 10-20 minutes par échantillon. Le temps total d'analyse pour un projet de 48 échantillons utilisant un pipeline standardisé est d'environ 24-48 heures, dont la majeure partie est consacrée à l'alignement qui peut être parallélisé sur plusieurs cœurs de CPU.
- Exigences en mémoireLa plupart des outils d'analyse sRNA-seq fonctionnent avec 8 à 16 Go de RAM, ce qui les rend accessibles sur des ordinateurs portables ou de bureau standard. miRDeep2 et Bowtie nécessitent environ 4 à 8 Go pour une analyse des miARN humains, tandis que les outils d'expression différentielle ont besoin de 2 à 4 Go. L'informatique en nuage n'est pas nécessaire pour la plupart des projets sRNA-seq.
Pièges courants dans les projets de séquençage de petits ARN
| Problème observé | Cause racine | Prévention |
|---|---|---|
| Proportion de lectures de miARN faible (<20 % du total) | Fragments de dégradation élevés d'ARNr/ARNm dans la bibliothèque | Améliorer l'intégrité de l'ARN ; optimiser l'étape de sélection de taille. |
| Contamination par dimère d'adaptateur | Quantité d'ARN d'entrée insuffisante pour le rapport d'adaptateur utilisé. | Réduisez la concentration des adaptateurs pour les échantillons à faible entrée ; utilisez des adaptateurs en boucle de tige. |
| Taux d'alignement faible (<50%) | Lectures multi-mappées rejetées ; incompatibilité avec la base de données de référence | Utilisez un alignement conscient de miRBase ; incluez le multi-mappage dans la quantification. |
| Les effets de lot dominent l'expression des miARN. | Différentes préparations de bibliothèques ou lots de kits | Traitez tous les échantillons d'un projet en un seul lot ; utilisez des contrôles de spike-in. |
| Détection incohérente des isomiRs | Profondeur de lecture variable entre les échantillons | Normaliser la profondeur de séquençage ; appliquer des filtres de nombre de lectures minimum. |
FAQ
Quelle profondeur de séquençage est requise pour le séquençage des petits ARN ?
Pour le profilage des miARN dans les tissus mammifères, 5 à 10 millions de lectures par échantillon sont généralement suffisants pour détecter la majorité des miARN exprimés. Pour les miARN rares ou faiblement exprimés, 10 à 20 millions de lectures par échantillon peuvent être nécessaires. Pour l'analyse des miARN circulants, 10 à 15 millions de lectures par échantillon sont recommandés en raison de la proportion plus faible de lectures de miARN dans les échantillons de biofluides.
Devrais-je utiliser le séquençage à extrémité unique ou le séquençage à extrémité appariée pour le sRNA-seq ?
Le séquençage en simple sens de 50 pb est suffisant pour la plupart des applications de sRNA-seq car la petite ARN typique mesure entre 18 et 31 nt. Le séquençage en double sens n'apporte aucune information supplémentaire pour les petits ARN et augmente le coût du séquençage sans avantage.
Comment choisir entre les différentes méthodes de préparation de bibliothèques sRNA-seq ?
Le choix dépend de la quantité d'ARN d'entrée et de la question de recherche. Les méthodes de ligation directe (TruSeq, QIAseq) conviennent à la plupart des projets avec 10-1000 ng d'entrée. Les méthodes basées sur la polyadénylation sont préférées lorsque le biais de ligation doit être minimisé. Les méthodes basées sur la sélection de taille sont adaptées pour un profilage large incluant les piARN et les tsARN lorsque l'ARN d'entrée est abondant.
Qu'est-ce qu'un isomiR et pourquoi est-ce important ?
Un isomiR est une variante de séquence d'un miARN canonique qui diffère par sa longueur ou sa composition en nucléotides. Les isomiRs peuvent avoir des spécificités cibles et des fonctions biologiques différentes. La détection et la quantification des isomiRs nécessitent des outils bioinformatiques spécialisés et une profondeur de séquençage suffisante.
Comment gérer les lectures à multi-mappage dans l'analyse sRNA-seq ?
Les lectures à multi-mappage sont des lectures qui s'alignent sur plusieurs emplacements génomiques. Des outils comme miRDeep2 utilisent des modèles statistiques pour attribuer des lectures à multi-mappage de manière probabiliste. Pour la plupart des analyses en aval, l'utilisation uniquement de lectures à mappage unique est acceptable lorsque l'objectif est de comparer l'expression des miARN entre les conditions, mais cela sous-estimera l'expression des miARN ayant plusieurs copies génomiques.
Quels contrôles devrais-je inclure dans une expérience de sRNA-seq ?
Des contrôles de spike-in (oligonucléotides d'ARN synthétiques à des concentrations connues) doivent être ajoutés à chaque échantillon avant la préparation de la bibliothèque pour évaluer la variation technique et permettre une quantification absolue. Des échantillons de contrôle positifs et négatifs doivent être inclus dans chaque lot pour valider le flux de travail.
Comment la qualité des données sRNA-seq diffère-t-elle de celle des données mRNA-seq ?
Le sRNA-seq a généralement des taux d'alignement plus bas (50-70%) que le mRNA-seq (>80%) en raison des lectures multi-mappées et de la présence de fragments de dégradation provenant de plus grands ARN. La proportion de lectures de miARN dans une bibliothèque sRNA-seq typique varie de 20 à 60% selon le type d'échantillon et la méthode de préparation de la bibliothèque. Les échantillons de sRNA circulants ont tendance à avoir les proportions les plus basses de lectures de miARN, parfois en dessous de 15% du total des lectures mappées.
Puis-je utiliser des outils d'analyse RNA-seq standard pour des données sRNA-seq ?
Pas directement. Les aligneurs RNA-seq standard comme STAR et HISAT2 sont conçus pour des lectures plus longues et des alignements épissés, et ne conviennent pas aux données sRNA-seq. Des aligneurs de courtes lectures comme Bowtie et BWA sont utilisés à la place. Les outils de quantification et d'expression différentielle conçus pour mRNA-seq (DESeq2, edgeR) peuvent être appliqués aux données de comptage sRNA-seq, mais la normalisation et les hypothèses statistiques ont été développées pour les données mRNA-seq et peuvent ne pas être optimales pour le nombre réduit de caractéristiques et les propriétés de distribution différentes des données sRNA-seq.
Références
- Identification et caractérisation optimisées des petits ARN. Protocoles de la nature. 2025;20:1587-1615.
- L'étude du séquençage des petits ARN à partir d'échantillons biologiques. Méthodes en biologie moléculaire. 2024;2889:151-174.
- Technologie de séquençage par nanopores, bioinformatique et applications. Biotechnologie de la Nature. 2021;39:1348-1365.
- Panneaux de microARN circulants pour la détection de multiples cancers. BMC Génomique Médicale2025;18:20.
- Bioinformatique des microARN en oncologie de précision : revue d'un pipeline intégré. Journal de génétique appliquée2025;66:551-570.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.