Fiche d'information : Séquençage de l'ARN et analyse des données

Que fait le séquençage de l'ARN ?

Le séquençage de l'ARN, ou RNA-Seqest une technique puissante de biologie moléculaire qui fournit des informations complètes sur le transcriptome d'un organisme.

Par exemple, le gène3 pourrait montrer une activité accrue dans les cellules normales, tandis que le gène2 présente une expression élevée dans les cellules mutantes. Pendant ce temps, le gène1 affiche des niveaux d'expression constants dans les deux types de cellules. Séquençage d'ARN à haut débit la technologie mesure l'abondance des transcrits de divers gènes au sein des cellules, révélant quels gènes sont activement transcrits.

Qu'est-ce que le séquençage de l'ARN (RNA-Seq) ? peut être un article utile pour en apprendre davantage sur le RNA-seq.

Qu'est-ce que les lectures, la longueur de lecture, la profondeur de lecture et le nombre de lectures ?

Littératureégalement connues sous le nom de séquences en aval, sont des séquences de bases nucléotidiques obtenues à partir des fragments d'acides nucléiques d'un échantillon analysés par un séquenceur, représentées sous forme de chaînes comme "ATCAGATA.....".

RNA-Seq Les lectures sont des séquences obtenues à partir de molécules d'ARN dans un échantillon, généralement générées par des techniques de séquençage de l'ARN. Ces lectures représentent des fragments de molécules d'ARN et sont essentielles pour comprendre l'expression génique, l'épissage alternatif et d'autres processus liés à l'ARN. Tout comme les lectures de séquençage génomique, les lectures de l'ARN-Seq se composent également de bases nucléotidiques, et leur analyse fournit des informations précieuses sur le transcriptome d'un organisme dans des conditions ou traitements spécifiques.

Le longueur de lecture indique le nombre de bases dans chaque lecture. Par exemple, lorsque nous disons qu'une lecture fait 50 paires de bases (pb) de long, cela signifie qu'elle se compose de 50 bases mesurées dans une seule séquence.

Profondeur de lecture fait référence à la quantité de lectures obtenues par le séquençage d'un échantillon. Il est souvent confondu avec la couverture de séquençage du génome, qui concerne l'étendue des régions génomiques séquencées, et la profondeur de séquençage, représentant soit la fréquence de séquençage d'un seul nucléotide, soit la profondeur moyenne sur tous les nucléotides séquencés.

Le nombre de lectures réflète le volume de données générées par le séquençage, souvent exprimé en entrées. Dans le contexte d'applications comme séquençage de nouvelle génération métagénomique (mNGS)Le nombre de lectures constitue une métrique cruciale pour détecter des microorganismes pathogènes spécifiques, aidant à leur caractérisation et à leur quantification.

Les services de séquençage RNA à haut débit et de construction de bibliothèques de CD Genomics permettent une analyse approfondie des transcriptomes. CD Genomics propose un service de recherche sur les transcriptomes robuste avec des échantillons de haute qualité.

Étapes principales de l'ARN-Seq (Basé sur le protocole Illumina)

Étape 1 : Extraction d'ARN

L'ARN de l'échantillon d'intérêt est extrait.

Étape 2 : Fragmentation de l'ARN

Les molécules d'ARN, généralement longues de milliers de bases, sont fragmentées en morceaux plus petits. Cette fragmentation est nécessaire car la longueur de lecture du séquenceur est limitée (généralement de 200 à 300 pb), ce qui permet le séquençage.

Étape 3 : Transcription inverse

L'ARN fragmenté est rétrotranscrit en ADN complémentaire (ADNc). L'ADN double brin est plus stable que l'ARN et est plus facile à amplifier et à manipuler.

Étape 4 : Ajout des adaptateurs de séquençage

Des adaptateurs de séquençage sont ajoutés aux extrémités de l'ADN double brin. Ces adaptateurs contiennent des séquences qui sont complémentaires à celles du chip de séquençage, permettant au séquenceur de reconnaître et de séquencer les fragments d'ADN de manière efficace. Différents échantillons peuvent utiliser des séquences d'adaptateurs distinctes, permettant le multiplexage des échantillons dans une seule course de séquençage. Il est important de noter que l'efficacité de l'ajout des adaptateurs peut varier, ce qui peut entraîner le non-reconnaissance de certains fragments d'ADN par le séquenceur.

Étape 5 : Amplification par PCR

L'amplification par PCR est réalisée à l'aide de primers conçus en fonction des séquences d'adaptateurs ajoutées. Cette étape d'amplification amplifie sélectivement les fragments d'ADN contenant les séquences d'adaptateurs.

Étape 6 : Contrôle de la qualité

La concentration et la longueur de la bibliothèque construite sont déterminées pour garantir des performances de séquençage optimales. Des bibliothèques avec une concentration et une longueur appropriées sont sélectionnées pour procéder au séquençage.

Étape 7 : Séquençage

La bibliothèque construite est soumise à un séquençage en utilisant la plateforme de séquençage choisie.

Prétraitement des données de séquençage d'ARN

Après le séquençage, l'ensemble de données comprend généralement environ 400 millions de lectures RNA-seq, chacune composée de quatre lignes. Avant l'analyse, il est essentiel de prétraiter ces données.

1. Prétraitement des données : Filtrage des lectures RNA-seq de qualité inférieure

Sous-standard RNA-seq Les lectures, caractérisées par une reconnaissance de base de faible qualité ou une interférence de composé, doivent être filtrées. Dans des conditions normales, un fragment d'ARN-seq comprend deux jonctions de séquençage et un fragment d'ADN. Cependant, dans des conditions anormales, un fragment d'ARN-seq peut se composer uniquement de deux jonctions de séquençage.

2. Alignement des lectures RNA-seq de haute qualité au génome

La vaste séquence de bases du génome nécessite sa fragmentation en de nombreuses courtes séquences de bases, qui sont indexées et dont les emplacements chromosomiques sont enregistrés. De même, RNA-seq Les lectures sont fragmentées en petits segments. Ces fragments de lecture sont ensuite alignés avec les fragments correspondants du génome. En faisant correspondre les petits fragments des lectures RNA-seq à ceux du génome, il est possible d'inférer la localisation chromosomique de chaque fragment de lecture.

3. Comptage des lectures par gène

Une fois que l'emplacement chromosomique de chacun RNA-seq Une fois qu'une lecture est déterminée, il devient possible de vérifier si une lecture se situe à l'intérieur d'un gène spécifique. Par exemple, en connaissant les coordonnées de gènes comme Xkr4 (Chromosome 1, position : 3204563-3661579) et Rp1 (Chromosome 1, position : 4280927-4399322), le nombre de lectures situées à ces coordonnées peut être comptabilisé, ce qui donne des comptes de lectures pour les gènes. Ce processus permet la construction d'une matrice de comptes de lectures.

4. Normalisation des données de séquençage

Étant donné que différents échantillons peuvent être comparés à des nombres variés de lectures dans le génome, des divergences dans les comptes de lectures peuvent survenir. Par exemple, l'Échantillon 1 pourrait avoir 635 lectures au total, tandis que l'Échantillon 2 en a 1270, presque le double de l'Échantillon 1. Cependant, cela n'indique pas un doublement de la transcription génique dans l'Échantillon 2. Au lieu de cela, cela signifie qu'il y a moins de lectures de mauvaise qualité dans l'Échantillon 2, qui sont interprétées par le séquenceur comme étant plus fluorescentes. Pour comparer avec précision les comptes de lectures et refléter les différences de transcription génique, les données de compte de lectures pour chaque gène doivent être ajustées. Des méthodes simples incluent la division de la valeur de compte de lectures pour chaque gène par le compte total de lectures de l'échantillon. Alternativement, des méthodes de normalisation plus complexes telles que RPKM, FPKM, TPM, etc., peuvent également être employées.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut