Ces dernières années, l'avancement rapide de la biotechnologie a mis en évidence de manière exponentielle l'importance de la technologie de séquençage génétique dans la recherche scientifique et la pratique clinique. Notamment, séquençage d'ARNm la technologie est devenue un outil essentiel dans des domaines clés tels que la construction de profils d'expression génique, la réalisation études transcriptomiques, identifiant des mutations et vérifiant la fonctionnalité des gènes, ce qui a enregistré des réalisations notables. L'objectif de cet article est de fournir une exploration détaillée des principes techniques du séquençage de l'ARNm et de son application dans divers domaines.
séquençage d'ARNm représente une méthode qui exploite les capacités des technologies de séquençage à haut débit pour analyser quantitativement les molécules d'ARN. Cette méthodologie comprend une série d'étapes critiques telles que l'extraction d'ARN, l'isolement et la purification de l'ARN, la synthèse de l'ADNc (ADN complémentaire), la construction de bibliothèques et, en fin de compte, le séquençage à haut débit. Chacune des phases susmentionnées mérite une discussion approfondie.
Extraction d'ARNAu départ, l'ARN total, incluant l'ARNm et l'ARN non codant, est extrait de l'échantillon. La qualité de cet ARN total extrait est essentielle au succès des expériences ultérieures, nécessitant l'utilisation d'un kit d'extraction d'ARN de haute qualité et le respect strict des instructions fournies.
Séparation et purification de l'ARNL'échantillon total d'ARN extrait peut être contaminé par d'importantes quantités d'ARN non codant, tel que l'ARNr. La présence de cet ARN non codant peut interférer avec les étapes suivantes. séquençage d'ARNm analyses. Par conséquent, pour garantir l'exactitude du séquençage de l'ARNm, il est impératif de séparer et de purifier efficacement l'ARNm de l'ARN total. Les méthodes de laboratoire courantes pour la séparation et la purification incluent l'enrichissement par oligo(dT) et l'isolement par billes magnétiques.
Compte tenu de la disparité structurelle significative entre l'ARNm chez les eucaryotes et les procaryotes, et en particulier de la structure unique de la queue Poly(A) à l'extrémité 3' de l'ARNm eucaryote, nous pouvons exploiter cette caractéristique pour l'isolement spécifique de l'ARNm. En utilisant des billes magnétiques portant de l'Oligo(dT), nous pouvons tirer parti de leur capacité de liaison sélective avec la structure de la queue Poly(A) de l'ARNm, éliminant ainsi l'ARN non ciblé de l'ARN total. Après des étapes d'élution spécifiques, l'ARNm lié peut ensuite être éluté des billes magnétiques. Enfin, l'ARNm est soumis à une fragmentation à l'aide d'un réactif contenant des ions magnésium pour répondre aux exigences de séquençage ultérieur.
Synthèse de l'ADNcUne fois que l'ARNm est séparé et purifié, il peut subir une transcription inverse pour synthétiser l'ADNc correspondant. Lors de la synthèse de l'ADNc, soit la méthode de queue, soit la méthode des amorces aléatoires peut être choisie en fonction des besoins. L'ADNc synthétisé par la méthode de queue offre des longueurs de lecture plus longues, facilitant l'analyse en aval, tandis que la méthode des amorces aléatoires peut atteindre une couverture complète du génome, indépendamment de longueurs de lecture relativement plus courtes.
Construction de bibliothèqueAvant le séquençage à haut débit, le cDNA produit doit être structuré en une bibliothèque correspondante. Au cours de cette procédure, le cDNA doit subir une fragmentation et l'ajout d'adaptateurs de séquençage. Les méthodes de construction de bibliothèque les plus courantes utilisées dans l'industrie incluent Construction de bibliothèque Illumina et la construction de bibliothèques Ion Torrent. Ces méthodes peuvent réaliser de manière efficace et précise la construction de bibliothèques d'ADNc, fournissant ainsi une base fiable pour le séquençage à haut débit ultérieur.
Étapes de préparation de la bibliothèque de séquençage de l'ARNm.
Séquençage à haut débitLes données de séquençage sont produites en quantités abondantes lorsque les bibliothèques préparées sont analysées sur des plateformes de séquençage à haut débit. Actuellement, les plateformes de séquençage les plus répandues incluent Illumina, Ion Torrent et PacBio.
Séquençage de l'ARN messager La séquençage d'ARNm (mRNA-seq) représente une méthode à haut débit et sensible pour l'analyse de l'expression génique qui a obtenu des réalisations significatives tant dans la recherche scientifique que dans les applications cliniques. À mesure que les technologies de séquençage continuent d'avancer, une attention croissante sera accordée au rôle vital du mRNA-seq dans les applications à venir. Néanmoins, il existe certaines limitations à la méthodologie mRNA-seq, telles que le traitement complexe des échantillons et l'analyse des données fastidieuse, ce qui nécessite une optimisation dans les applications pratiques.
La séquençage d'ARNm est devenu un outil essentiel pour révéler les motifs d'expression génique et leurs mécanismes régulateurs. En capturant avec précision les profils d'expression génique à travers divers tissus, stades de développement et conditions pathologiques, nous pouvons identifier avec précision les gènes exprimés de manière différentielle et spéculer sur leur rôle central dans les processus biologiques. Cette technique permet également une exploration approfondie de domaines complexes tels que les isoformes de splicing et l'ARN non codant, fournissant ainsi un soutien solide pour atteindre une compréhension complète de la fonction des gènes.
Du point de vue de la recherche mécanistique sur les maladies, le séquençage d'ARNm offre aux scientifiques un point de vue d'investigation unique. En réalisant une analyse comparative des profils d'expression génique entre les groupes de cas et de contrôle, nous pouvons identifier avec précision les gènes exprimés de manière différentielle fortement corrélés aux maladies. Une enquête plus approfondie sur les fonctionnalités de ces gènes et leurs réseaux régulateurs peut permettre d'obtenir des aperçus plus profonds sur la pathogénie et la progression des maladies, offrant de nouvelles perspectives pour le diagnostic et le traitement.
Dans le domaine du développement de médicaments, le séquençage d'ARNm joue un rôle tout aussi indispensable. En comparant les profils d'expression génique du groupe traité par le médicament et du groupe témoin, nous pouvons identifier des gènes exprimés différemment étroitement liés aux cibles médicamenteuses. Une analyse plus approfondie des fonctionnalités et des mécanismes de régulation de ces gènes nous aide à identifier de nouvelles cibles thérapeutiques, fournissant ainsi des stratégies innovantes pour la recherche et le développement de médicaments.
(1) Analyse de l'expression géniqueGrâce au séquençage de l'ARNm, nous pouvons explorer la manière dont les gènes s'expriment dans différents tissus, stades de développement et conditions environnementales. Cette technique fournit des informations sur les profils d'expression des gènes, permettant par la comparaison de différents échantillons d'identifier les gènes jouant des rôles clés dans des processus biologiques spécifiques, révélant ainsi des réseaux régulateurs entre les gènes.
(2) Détection de mutationsLa séquençage de l'ARNm peut détecter des variations dans les séquences génétiques, y compris les variations de nucléotides uniques (SNV) et les insertions et suppressions (indels). De telles mutations peuvent affecter de manière drastique le phénotype d'un organisme et sont souvent étroitement liées aux mécanismes des maladies génétiques, des mutations cancéreuses et des différences génétiques individuelles.
(3) Assemblage du transcriptomeLa séquençage de l'ARNm permet non seulement d'identifier des gènes spécifiques, mais aussi d'assembler des transcrits. Un gène peut avoir plusieurs variantes de transcrits différentes, chacune exerçant potentiellement des fonctions ou des rôles régulateurs différents. En déterminant ces variantes, nous pouvons mener une exploration plus approfondie des mécanismes d'épissage des gènes et de régulation transcriptionnelle.
(4) Analyse de la dynamique du transcriptomeEn séquençant continuellement des échantillons à différents moments, nous pouvons mettre en lumière les changements dynamiques dans l'expression des gènes. Cette technique revêt une grande importance pour le développement biologique, la transduction des signaux cellulaires et la recherche sur la progression des maladies. Elle nous aide à mieux comprendre la croissance, le développement et la formation des maladies chez les organismes, fournissant un soutien théorique et des directives pratiques pour le traitement et la prévention des maladies.
Vous pourriez être intéressé par
En savoir plus
Avec l'avancement rapide des technologies biologiques, l'analyse de l'expression génique est devenue l'un des points focaux de la recherche biologique contemporaine. Les microarrays d'expression génique traditionnels et la technologie émergente de mRNA-Seq représentent des méthodes courantes pour l'analyse de l'expression génique ; cependant, le mRNA-Seq présente des avantages distincts par rapport aux premiers dans divers aspects. Alors que les avancées technologiques et la réduction des coûts se poursuivent, il est prévu que le mRNA-Seq éclaircisse de plus en plus le tableau du monde biologique.
Principalement, le séquençage d'ARNm offre une applicabilité plus large en termes de plage dynamique par rapport aux microarrays d'expression génique. Ces derniers, par conception, sont limités par leur rigidité inhérente, ce qui entrave la mesure précise de l'expression génique à faible abondance. En revanche, le séquençage d'ARNm peut détecter des niveaux d'expression génique extrêmement bas, améliorant ainsi considérablement la sensibilité. Parallèlement, puisque le séquençage d'ARNm utilise des techniques de séquençage quantitatif, il permet une mesure plus précise des variations d'expression génique, offrant aux chercheurs des données plus fiables.
Deuxièmement, le séquençage d'ARNm peut capturer simultanément des caractéristiques connues et nouvelles. Les microarrays d'expression génique traditionnels sont limités par la capacité de conception pour les séquences géniques connues et sont incapables de détecter des transcrits ou des variantes géniques nouveaux. En revanche, le séquençage d'ARNm peut couvrir l'ensemble du transcriptome et n'est pas restreint par des séquences géniques connues, permettant la détection de nouveaux transcrits, de variantes d'épissage et de fusions géniques, entre autres. Cette large couverture confère au séquençage d'ARNm une plus grande flexibilité et exhaustivité lors de l'analyse de transcriptomes complexes.
De plus, le séquençage d'ARNm (mRNA-Seq) est applicable à un large éventail d'espèces. Les microarrays d'expression génique nécessitent une conception en fonction des séquences géniques spécifiques à chaque espèce, ce qui limite leur champ d'application. En revanche, le mRNA-Seq ne nécessite ni sondes ni amorces préconçues, et peut séquencer directement le transcriptome de n'importe quelle espèce donnée. Cette caractéristique unique a des implications profondes pour les comparaisons inter-espèces et la recherche sur la fonction des gènes, entre autres domaines, justifiant ainsi ses perspectives d'application future étendues.
Diagramme PCADans le contexte d'un scénario multi-échantillons, nous avons utilisé la fonction procmp dans le langage R pour effectuer une analyse en composantes principales (ACP) basée sur les données de niveau d'expression des échantillons individuels. Cette méthode analytique exploite des techniques de réduction de dimensionnalité, permettant le regroupement d'échantillons similaires dans un espace bidimensionnel, offrant ainsi une représentation visuelle de la variabilité au sein et entre les groupes d'échantillons. Dans cette représentation graphique, l'axe des x représente la première composante principale, tandis que l'axe des y désigne la deuxième composante principale, offrant ainsi aux chercheurs un outil analytique à la fois intuitif et scientifiquement robuste.
Graphiques d'analyse en composantes principales (ACP) pour les données RNA-seq (Leonardo Miguel Galindo Gonzalez et al, 2020)
Diagramme de volcanEn utilisant une analyse méticuleuse, nous pouvons discerner les motifs d'expression des gènes différentiels, révélés principalement par des diagrammes de distribution génique. Cette représentation graphique non seulement illustre la distribution des gènes, mais met également en lumière les variations de l'expression génique ainsi que la signification des résultats. Idéalement, la prolifération des gènes différentiels montrés de chaque côté du diagramme devrait présenter une tendance relativement symétrique.
Lors d'un examen plus approfondi, nous constatons que la quantité de points rouges et bleus diminue lorsque l'écart entre les deux groupes d'échantillons est minimal. Ce scénario indique un nombre réduit de gènes différentiels qui pourraient potentiellement influencer nos orientations de recherche ultérieures, entraînant un champ de sélection comparativement limité.
Dans le diagramme, les points rouges symbolisent les gènes régulés à la hausse, les points verts représentent les gènes régulés à la baisse, tandis que les points gris signifient les gènes dont l'expression différentielle n'est pas significativement différente. Ces informations nous offrent une perspective complète sur les différences d'expression génique, favorisant ainsi une analyse plus approfondie et faisant progresser nos efforts de recherche.
Ruijie Cynthia Liu et al., 2016
Carte thermique de regroupementL'analyse de cluster sert de technique sophistiquée centrée sur la discernement des motifs d'expression des gènes exprimés de manière différentielle sous diverses conditions expérimentales. En utilisant cette approche, les gènes présentant une forte corrélation dans leurs niveaux d'expression sont classés au sein du même groupe. Ce phénomène suggère généralement des associations substantielles entre ces gènes dans des opérations biologiques spécifiques, ou des voies métaboliques et de signalisation particulières. Par conséquent, l'analyse de clustering de l'expression génique peut révéler des liens biologiques potentiellement significatifs entre des gènes qui n'ont pas encore été clairement articulés. Dans la présentation des résultats, les gènes sont traditionnellement affichés horizontalement, chaque colonne représentant un échantillon. Les gènes à forte expression sont désignés en rouge, tandis que les gènes à faible expression sont notés en vert. Cette forme de représentation aide à une compréhension plus intuitive des variations et des interconnexions dans l'expression génétique.
Carte thermique des gènes différemment exprimés
Graphique en bulles d'enrichissement des voies de Gene Ontology / KEGGUne analyse d'enrichissement GO a été réalisée en utilisant l'outil logiciel topGO. Au cours de cette analyse, nous avons utilisé des annotations de termes GO pour calculer la liste des gènes dans chaque terme et leurs quantités respectives, en nous basant sur notre ensemble de gènes différentiels. Par la suite, nous avons appliqué une méthode statistique de distribution hypergéométrique pour calculer la valeur P de chaque terme. Un terme donné est considéré comme significativement enrichi si la valeur P est inférieure à 0,05. Cette procédure nous permet de déterminer quels termes GO sont principalement enrichis par les gènes différentiels par rapport à l'ensemble du contexte génomique, éclaircissant ainsi les principales fonctions biologiques que ces gènes différentiels exécutent.
En conjonction avec les résultats de l'analyse d'enrichissement KEGG, nous utilisons trois métriques pour évaluer l'étendue de l'enrichissement : le facteur d'enrichissement, la valeur du taux de fausse découverte (FDR) et le nombre de gènes enrichis dans cette voie. Plus précisément, le facteur d'enrichissement désigne le rapport entre la quantité de gènes différentiels réellement enrichis dans une voie donnée et la quantité totale de gènes différentiels annotés dans cette voie. Une valeur plus élevée signifie un degré d'enrichissement plus important. Parallèlement, la valeur du FDR varie généralement entre 0 et 1 : des valeurs plus proches de 0 indiquent un enrichissement plus significatif. En général, nous choisissons de réaliser une analyse approfondie et de créer des graphiques sur les quelques voies ayant la plus basse valeur de FDR et le plus de gènes parmi les gènes différentiels.
L'enrichissement des termes GO et des voies KEGG (Na Wang et al, 2019)
Note complémentaire :
En plus de la génération des résultats graphiques mentionnés précédemment, le séquençage du transcriptome offre une variété de types de graphiques, y compris des diagrammes de voies KEGG et des graphiques d'interaction de réseaux de protéines PPI, entre autres. Les utilisateurs peuvent sélectionner et utiliser ces ressources en fonction de leurs besoins de recherche individuels.
Si le chercheur a déjà réalisé des expériences d'expression génique, telles que le qPCR, il serait avantageux, dans le cadre de recherches transcriptomiques ultérieures, de privilégier une analyse complète des familles de gènes ou des gènes en amont et en aval liés aux voies impliquées dans les expériences précédentes. Cette approche permet d'élucider davantage les mécanismes étudiés, enrichissant ainsi la profondeur et l'étendue du contenu de la recherche.
Références :