Les technologies et le flux de travail de l'ARN-seq

Quelles sont les avancées techniques dans le séquençage de l'ARN ?

Séquençage de Sanger et microarrays. Technologie de séquençage de Sanger a été d'abord utilisé pour transcriptomique, ce qui a permis des méthodes telles que SAGE (analyse sérielle de l'expression génique). SAGE a été l'une des premières tentatives de quantifier l'expression génique de manière globale. Presque instantanément, microarrays en utilisant l'hybridation de sondes complémentaires, a rapidement émergé et a dominé le domaine du profilage transcriptomique pendant la décennie suivante.

NGSL'avènement de technologies de nouvelle génération a permis à l'approche de séquençage de surpasser microarray approche. En 2006, le premier séquençage d'ARN un article a été publié en utilisant la technologie 454/Roche. L'ère de RNA-seq la domination a commencé en 2008 avec la maturité de la technologie Illumina/Solexa. Les plateformes techniques les plus populaires pour RNA-Seq a été l'Illumina Genome Analyzer et le Hi-Seq. Alors que la technologie Illumina/Solexa peut générer des gigabases de données par course (initialement 1 Go par course pour le Genome Analyzer en 2006 et 600 Go par course pour le HiSeq en 2012), la technologie Roche/454 génère des lectures suffisamment longues pour RNA-seq mais sont entravés par le débit relativement faible et le coût élevé.

Séquençage de troisième générationMalgré la popularisation de la technologies NGSl'application du séquençage de troisième génération dans RNA-seq est en route. Par exemple, le séquençage Heliscope et séquençage en temps réel à molécule unique (SMRT) ont déjà été appliquées dans certains RNA-seq études. La technologie de séquençage PacBio SMRT à longues lectures peut facilement couvrir l'ensemble du transcrit depuis l'extrémité 5' jusqu'à la queue poly A 3' sans avoir besoin de fragmentation pour obtenir des séquences cDNA de pleine longueur, ce qui est utile pour identifier de nouveaux transcrits et de nouveaux introns, permettant ainsi d'identifier avec précision les isoformes, les sites d'épissage alternatif, l'expression des gènes de fusion et l'expression allélique.

Tableau 1. Les avantages de l'ARN-seq par rapport à d'autres approches de transcriptomique (Wang et al. 2009).

Technologie Microarray de carrelage séquençage de cDNA ou d'EST RNA-seq
Spécifications techniques
Principe hybridation Séquençage de Sanger Séquençage à haut débit
Résolution De plusieurs à 100 points de base Base unique Base unique
Débit Élevé Bas Élevé
Dépendance à la séquence génomique Oui Non Dans certains cas
Bruit de fond Élevé Bas Bas
Application
Cartographier simultanément les régions transcrites et l'expression génique Oui Limité pour l'expression génique Oui
Plage dynamique pour quantifier le niveau d'expression génique Jusqu'à plusieurs centaines de fois Pas pratique plus de 8 000 fois
Capacité à distinguer différents isoformes Limité Oui Oui
Capacité à distinguer l'expression allélique Limité Oui Oui
Questions pratiques
Quantité requise d'ARN Élevé Élevé Bas
Coût pour le mapping des transcriptomes de grands génomes Élevé Élevé Relativement bas

Quels sont les défis de l'ARN-seq ?

  • Lecture courteLa technologie de séquençage Illumina a progressivement augmenté la longueur des lectures et le débit depuis son introduction en 2007. Des lectures longues à paires d'extrémités spécifiques à la brin sont couramment utilisées pour des niveaux plus élevés de cartabilité et de novo l'assemblage des transcriptomes. De plus, la technologie de séquençage de troisième génération (comme PacBio et Ion-Torrent) permet séquençage de transcrits complets.
  • Biais de PCRUne autre préoccupation est l'impact de l'amplification PCR sur la précision de la quantification de l'expression génique via RNA-seqHelicos et certains des troisième séquenceurs ont utilisé une technologie sans amplification. Il existe également des méthodes sans PCR pour le séquençage Illumina.

Flux de travail de l'ARN-seq basé sur le séquençage de nouvelle génération (NGS)

Le flux de travail de RNA-seq en utilisant séquençage à haut débit La technologie est illustrée dans la Figure 1. En résumé, les longs ARN sont d'abord convertis en une bibliothèque de fragments de cDNA par fragmentation de l'ARN ou de l'ADN. Des adaptateurs de séquençage sont ensuite attachés à chaque fragment de cDNA et des données de séquençage sont générées de manière haut débit à partir des deux extrémités (séquençage à extrémités appariées). Les lectures de séquence résultantes sont ensuite alignées avec le génome ou le transcriptome de référence, et sont classées en trois types : lectures exoniques, lectures de jonction et lectures de fin poly(A). Un profil d'expression à résolution de base peut être généré en utilisant ces trois types de lectures de séquence.

Figure 1. Typical workflow of RNA-seq (Wang et al. 2009).Figure 1. Un flux de travail typique de l'ARN-seq (Wang et al. 2009).

  • Construction de bibliothèque

Figure 2. RNA-seq library construction pipeline.Figure 2. Un pipeline typique de construction de bibliothèque pour l'RNA-seq.

Suite à la collecte d'échantillons, l'ARN total est généralement isolé par extraction organique et/ou membranes en silice de colonnes à centrifuger. L'échantillon d'ARN total est ensuite traité soit par sélection directe de l'ARN poly(A), soit par élimination sélective de l'ARNr, car l'ARNr abondant n'est généralement pas l'objet de recherche et réduit considérablement la couverture des transcrits utiles. La procédure de purification de l'ARNm basée sur l'oligo(dT) est largement utilisée chez les eucaryotes. Cependant, certains transcrits d'ARN qui manquent de queues poly(A) sont négligés. Comparé à la sélection de l'ARN poly(A), l'approche de déplétion d'ARNr est préférée car elle enrichit toutes les espèces d'ARN non ribosomiques, y compris l'ARNt, les ARN non codants, l'ARNm non poly(A) et l'ARN prétraité. Les deux méthodes de déplétion d'ARNr les plus populaires sont : (i) l'hybridation de l'ARNr avec des sondes anti-ARNr marquées par la biotine, suivie de l'élimination avec des billes magnétiques recouvertes de streptavidine ; et (ii) la dégradation sélective de l'ARNr par une exonucléase 5'-3' qui reconnaît spécifiquement l'ARNr avec un phosphate 5'.

La fragmentation est ensuite réalisée pour atteindre la longueur souhaitée pour différents NGS technologies. Certaines petites ARN, telles que les microARN, les ARN interagissant avec piwi et les ARN interférents courts, peuvent être séquencées directement sans fragmentation. Les molécules d'ARN plus grandes doivent être fragmentées en morceaux plus petits (200-500 pb) avant les technologies de séquençage profond. La fragmentation de l'ADNc (traitement par DNase I ou sonication) et l'hydrolyse ou la nébulisation de l'ARN. Cependant, chacune de ces méthodes peut créer un biais différent dans le résultat. Par exemple, la fragmentation de l'ADNc est généralement fortement biaisée vers l'identification des séquences des extrémités 3' des transcrits, tandis que la fragmentation de l'ARN présente peu de biais sur le transcrit mais est appauvrie pour les extrémités des transcrits. Par conséquent, la fragmentation de l'ADNc fournit des informations précieuses sur l'identité précise de ces extrémités et la fragmentation de l'ARN permet d'accéder à l'identité précise du corps du transcrit.

Dans le classique NGS Les protocoles, les adaptateurs sont ligés sur des fragments d'ADN double brin partagés. Cependant, un inconvénient majeur de cette approche est la perte d'information sur la direction transcriptionnelle. Le prétraitement des échantillons d'ARN avec du bisulfite de sodium peut convertir la cytidine en uridine. La transition C-T généralisée marque ainsi le brin codant de chaque transcrit. D'autres méthodes qui maintiennent la spécificité des brins ont été proposées, telles que la ligation directe des adaptateurs d'ARN à l'échantillon d'ARN avant la transcription inverse.

  • Séquençage

Le RNA-seq est actuellement dominé par trois plateformes différentes : Illumina (Genome Analyzer et HiSeq), Applied Biosystems SOLID et Roche 454 Life Science systems. Les longueurs de lecture varient de 30 à 100 pb pour Illumina et SOLiD, et de 200 à 500 pb pour le système de pyroséquençage 454. Basé sur 454 RNA-seq est particulièrement attrayant pour les organismes non-modèles sans génomes ou transcriptomes de référence. Des lectures plus longues ou des lectures courtes en paire peuvent révéler la connectivité entre plusieurs exons. RNA-seq est une méthode puissante pour étudier des transcriptomes complexes et révéler des variations de séquence dans les régions transcrites.

  • Bioinformatique

Figure 3. Data analysis pipeline for RNA-seq.Figure 3. Un pipeline d'analyse typique des données RNA-seq.

L'évaluation de la qualité est la première étape pour le analyse bioinformatique de RNA-seq, ce qui garantit un résultat final cohérent par la suppression des séquences de faible qualité, des séquences sur-représentées et des séquences d'adaptateurs. Une fois que toutes les lectures ont été filtrées et mappées ou assemblées, les niveaux d'expression génique peuvent ainsi être déduits, conduisant à une carte du transcriptome à l'échelle du génome en termes de qualité et de quantité. RNA-seq permet également de détecter l'expression différentielle (DE) à travers les traitements des conditions. Une normalisation doit être effectuée pour ajuster les différences entre les échantillons, telles que la taille de la bibliothèque et les caractéristiques spécifiques des gènes. De plus, RNA-seq nous permet d'identifier des SNPs, des gènes de fusion et la régulation génique post-transcriptionnelle, telle que l'édition de l'ARN, la dégradation et la traduction.

Si vous souhaitez plus d'informations sur le applications du RNA-seq ou bioinformatique flux de travail de l'ARN-seqvous pouvez vous référer à l'article.

Références :

  1. Wang Z, Gerstein M, Snyder M. RNA-Seq : un outil révolutionnaire pour la transcriptomique. Nature Reviews Genetics, 2009, 10(1) : 57.
  2. Qian X, Ba Y, Zhuang Q, et al. La technologie RNA-Seq et son application dans la transcriptomique des poissons. Omics : une revue de biologie intégrative, 2014, 18(2) : 98-110.
  3. Marguerat S, Bähler J. RNA-seq : de la technologie à la biologie. Sciences de la vie cellulaires et moléculaires, 2010, 67(4) : 569-579.
  4. Wilhelm B T, Landry J R. RNA-Seq—mesure quantitative de l'expression par séquençage d'ARN massivement parallèle. Méthodes, 2009, 48(3) : 249-257.
  5. McGettigan P A. Transcriptomique à l'ère de l'ARN-seq. Opinion actuelle en biologie chimique, 2013, 17(1) : 4-11.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut