Séquençage de Sanger et microarrays. Technologie de séquençage de Sanger a été d'abord utilisé pour transcriptomique, ce qui a permis des méthodes telles que SAGE (analyse sérielle de l'expression génique). SAGE a été l'une des premières tentatives de quantifier l'expression génique de manière globale. Presque instantanément, microarrays en utilisant l'hybridation de sondes complémentaires, a rapidement émergé et a dominé le domaine du profilage transcriptomique pendant la décennie suivante.
NGSL'avènement de technologies de nouvelle génération a permis à l'approche de séquençage de surpasser microarray approche. En 2006, le premier séquençage d'ARN un article a été publié en utilisant la technologie 454/Roche. L'ère de RNA-seq la domination a commencé en 2008 avec la maturité de la technologie Illumina/Solexa. Les plateformes techniques les plus populaires pour RNA-Seq a été l'Illumina Genome Analyzer et le Hi-Seq. Alors que la technologie Illumina/Solexa peut générer des gigabases de données par course (initialement 1 Go par course pour le Genome Analyzer en 2006 et 600 Go par course pour le HiSeq en 2012), la technologie Roche/454 génère des lectures suffisamment longues pour RNA-seq mais sont entravés par le débit relativement faible et le coût élevé.
Séquençage de troisième générationMalgré la popularisation de la technologies NGSl'application du séquençage de troisième génération dans RNA-seq est en route. Par exemple, le séquençage Heliscope et séquençage en temps réel à molécule unique (SMRT) ont déjà été appliquées dans certains RNA-seq études. La technologie de séquençage PacBio SMRT à longues lectures peut facilement couvrir l'ensemble du transcrit depuis l'extrémité 5' jusqu'à la queue poly A 3' sans avoir besoin de fragmentation pour obtenir des séquences cDNA de pleine longueur, ce qui est utile pour identifier de nouveaux transcrits et de nouveaux introns, permettant ainsi d'identifier avec précision les isoformes, les sites d'épissage alternatif, l'expression des gènes de fusion et l'expression allélique.
Services qui pourraient vous intéresser
Tableau 1. Les avantages de l'ARN-seq par rapport à d'autres approches de transcriptomique (Wang et al. 2009).
| Technologie | Microarray de carrelage | séquençage de cDNA ou d'EST | RNA-seq |
| Spécifications techniques | |||
|---|---|---|---|
| Principe | hybridation | Séquençage de Sanger | Séquençage à haut débit |
| Résolution | De plusieurs à 100 points de base | Base unique | Base unique |
| Débit | Élevé | Bas | Élevé |
| Dépendance à la séquence génomique | Oui | Non | Dans certains cas |
| Bruit de fond | Élevé | Bas | Bas |
| Application | |||
| Cartographier simultanément les régions transcrites et l'expression génique | Oui | Limité pour l'expression génique | Oui |
| Plage dynamique pour quantifier le niveau d'expression génique | Jusqu'à plusieurs centaines de fois | Pas pratique | plus de 8 000 fois |
| Capacité à distinguer différents isoformes | Limité | Oui | Oui |
| Capacité à distinguer l'expression allélique | Limité | Oui | Oui |
| Questions pratiques | |||
| Quantité requise d'ARN | Élevé | Élevé | Bas |
| Coût pour le mapping des transcriptomes de grands génomes | Élevé | Élevé | Relativement bas |
Le flux de travail de RNA-seq en utilisant séquençage à haut débit La technologie est illustrée dans la Figure 1. En résumé, les longs ARN sont d'abord convertis en une bibliothèque de fragments de cDNA par fragmentation de l'ARN ou de l'ADN. Des adaptateurs de séquençage sont ensuite attachés à chaque fragment de cDNA et des données de séquençage sont générées de manière haut débit à partir des deux extrémités (séquençage à extrémités appariées). Les lectures de séquence résultantes sont ensuite alignées avec le génome ou le transcriptome de référence, et sont classées en trois types : lectures exoniques, lectures de jonction et lectures de fin poly(A). Un profil d'expression à résolution de base peut être généré en utilisant ces trois types de lectures de séquence.
Figure 1. Un flux de travail typique de l'ARN-seq (Wang et al. 2009).
Figure 2. Un pipeline typique de construction de bibliothèque pour l'RNA-seq.
Suite à la collecte d'échantillons, l'ARN total est généralement isolé par extraction organique et/ou membranes en silice de colonnes à centrifuger. L'échantillon d'ARN total est ensuite traité soit par sélection directe de l'ARN poly(A), soit par élimination sélective de l'ARNr, car l'ARNr abondant n'est généralement pas l'objet de recherche et réduit considérablement la couverture des transcrits utiles. La procédure de purification de l'ARNm basée sur l'oligo(dT) est largement utilisée chez les eucaryotes. Cependant, certains transcrits d'ARN qui manquent de queues poly(A) sont négligés. Comparé à la sélection de l'ARN poly(A), l'approche de déplétion d'ARNr est préférée car elle enrichit toutes les espèces d'ARN non ribosomiques, y compris l'ARNt, les ARN non codants, l'ARNm non poly(A) et l'ARN prétraité. Les deux méthodes de déplétion d'ARNr les plus populaires sont : (i) l'hybridation de l'ARNr avec des sondes anti-ARNr marquées par la biotine, suivie de l'élimination avec des billes magnétiques recouvertes de streptavidine ; et (ii) la dégradation sélective de l'ARNr par une exonucléase 5'-3' qui reconnaît spécifiquement l'ARNr avec un phosphate 5'.
La fragmentation est ensuite réalisée pour atteindre la longueur souhaitée pour différents NGS technologies. Certaines petites ARN, telles que les microARN, les ARN interagissant avec piwi et les ARN interférents courts, peuvent être séquencées directement sans fragmentation. Les molécules d'ARN plus grandes doivent être fragmentées en morceaux plus petits (200-500 pb) avant les technologies de séquençage profond. La fragmentation de l'ADNc (traitement par DNase I ou sonication) et l'hydrolyse ou la nébulisation de l'ARN. Cependant, chacune de ces méthodes peut créer un biais différent dans le résultat. Par exemple, la fragmentation de l'ADNc est généralement fortement biaisée vers l'identification des séquences des extrémités 3' des transcrits, tandis que la fragmentation de l'ARN présente peu de biais sur le transcrit mais est appauvrie pour les extrémités des transcrits. Par conséquent, la fragmentation de l'ADNc fournit des informations précieuses sur l'identité précise de ces extrémités et la fragmentation de l'ARN permet d'accéder à l'identité précise du corps du transcrit.
Dans le classique NGS Les protocoles, les adaptateurs sont ligés sur des fragments d'ADN double brin partagés. Cependant, un inconvénient majeur de cette approche est la perte d'information sur la direction transcriptionnelle. Le prétraitement des échantillons d'ARN avec du bisulfite de sodium peut convertir la cytidine en uridine. La transition C-T généralisée marque ainsi le brin codant de chaque transcrit. D'autres méthodes qui maintiennent la spécificité des brins ont été proposées, telles que la ligation directe des adaptateurs d'ARN à l'échantillon d'ARN avant la transcription inverse.
Services qui pourraient vous intéresser
Le RNA-seq est actuellement dominé par trois plateformes différentes : Illumina (Genome Analyzer et HiSeq), Applied Biosystems SOLID et Roche 454 Life Science systems. Les longueurs de lecture varient de 30 à 100 pb pour Illumina et SOLiD, et de 200 à 500 pb pour le système de pyroséquençage 454. Basé sur 454 RNA-seq est particulièrement attrayant pour les organismes non-modèles sans génomes ou transcriptomes de référence. Des lectures plus longues ou des lectures courtes en paire peuvent révéler la connectivité entre plusieurs exons. RNA-seq est une méthode puissante pour étudier des transcriptomes complexes et révéler des variations de séquence dans les régions transcrites.
Figure 3. Un pipeline d'analyse typique des données RNA-seq.
L'évaluation de la qualité est la première étape pour le analyse bioinformatique de RNA-seq, ce qui garantit un résultat final cohérent par la suppression des séquences de faible qualité, des séquences sur-représentées et des séquences d'adaptateurs. Une fois que toutes les lectures ont été filtrées et mappées ou assemblées, les niveaux d'expression génique peuvent ainsi être déduits, conduisant à une carte du transcriptome à l'échelle du génome en termes de qualité et de quantité. RNA-seq permet également de détecter l'expression différentielle (DE) à travers les traitements des conditions. Une normalisation doit être effectuée pour ajuster les différences entre les échantillons, telles que la taille de la bibliothèque et les caractéristiques spécifiques des gènes. De plus, RNA-seq nous permet d'identifier des SNPs, des gènes de fusion et la régulation génique post-transcriptionnelle, telle que l'édition de l'ARN, la dégradation et la traduction.
Si vous souhaitez plus d'informations sur le applications du RNA-seq ou bioinformatique flux de travail de l'ARN-seqvous pouvez vous référer à l'article.
Références :