RNA-SeqL'appel de variants est une méthode efficace pour détecter les changements génétiques dans les parties transcrites du génome. La détection traditionnelle des variants de l'ADN offre une vue d'ensemble des changements génomiques. Cependant, l'appel de variants par RNA-Seq met en évidence des motifs d'expression spécifiques aux tissus et des événements d'épissage alternatif. Ceux-ci peuvent avoir des effets fonctionnels importants.
Cet article examine l'ARN-Seq. appel de variantesCela aide à trouver des changements génétiques dans les gènes actifs. Cette méthode montre des motifs spécifiques aux tissus et des changements fonctionnels. Elle s'ajoute aux méthodes traditionnelles de détection des variantes de l'ADN.
la séquence d'ARN a principalement été utilisée pour le profilage d'expression. Mais maintenant, les chercheurs voient sa valeur dans la recherche de variants génomiques dans les régions exprimées du génome. L'appel de variants par séquençage d'ARN fonctionne bien avec les méthodes traditionnelles de l'ADN pour trouver des variants. Le séquençage d'ARN se concentre sur les régions transcrites, contrairement au séquençage de tout le génome ou de tout l'exome. Cette approche présente plusieurs avantages clés pour l'analyse des variants. Elle offre une meilleure couverture des gènes exprimés. Cela pourrait révéler des variants importants qui Séquençage de l'ADN peut manquer à des profondeurs similaires. L'ARN-Seq cible des zones du génome qui sont activement transcrites. Ce focus augmente les chances de trouver des variantes qui peuvent avoir des impacts fonctionnels. L'ARN-Seq permet aux chercheurs d'analyser la variation génétique et l'expression des gènes en même temps. Cela les aide à lier le génotype avec les phénotypes transcriptionnels directement.
L'ARN-Seq montre des mutations dans des régions qui sont activement transcrites. Cela diffère du séquençage de l'ADN, qui capture l'ensemble du plan génétique, peu importe si les gènes sont exprimés ou non. Cette distinction offre plusieurs avantages uniques :
L'appel de variantes par RNA-Seq est particulièrement bien placé pour détecter les variantes qui affectent l'épissage, y compris :
Malgré ces avantages, l'appel de variants par RNA-Seq présente des défis uniques par rapport aux approches basées sur l'ADN. Identifier des variants à partir des données RNA-Seq est difficile. Cela est dû aux séquences introniques, à l'épissage alternatif, à l'édition de l'ARN et aux niveaux d'expression variables. Un pipeline solide est essentiel pour surmonter ces défis et obtenir des informations fiables sur les variants.
Figure 1. Vue d'ensemble du flux de travail T1K. (Song, L, 2023)
Services qui pourraient vous intéresser
En savoir plus
La couverture RNA-Seq est intrinsèquement variable et directement proportionnelle aux niveaux d'expression génique. Les gènes fortement exprimés peuvent avoir des milliers de lectures. En revanche, les gènes faiblement exprimés ont généralement moins de lectures. Cette couverture sparse rend difficile la détection des variants dans ces zones. Cette représentation inégale entraîne plusieurs complications :
Le défi est clair dans les échantillons de tissus comportant de nombreux types de cellules. Ici, certaines variantes peuvent n'apparaître que dans des groupes de cellules spécifiques. Les méthodes statistiques peuvent aider avec la couverture variable et le filtrage basé sur l'expression. Cependant, ces problèmes restent de grands défis dans l'appel de variantes RNA-Seq.
Biais spécifiques au brin et artefacts de transcription inverse
La préparation de la bibliothèque RNA-Seq comporte plusieurs étapes enzymatiques. Ces étapes peuvent entraîner des biais systématiques et des artefacts.
Ces artefacts techniques pourraient être confondus avec de véritables variantes génétiques. Nous avons donc besoin de stratégies de filtrage avancées. Ces stratégies devraient prendre en compte le biais de brin, le contexte de séquence et l'emplacement des lectures de soutien.

Figure 2. Développements actuels et défis dans les technologies et algorithmes d'identification des variants. (Stepanka Zverinova, 2021)
L'édition de l'ARN est un processus qui modifie la séquence de l'ARN après sa création. Cela se fait sans altérer le modèle d'ADN. Le type le plus courant chez les humains est l'édition d'adénosine en inosine. Cela se manifeste par des changements A en G dans les données de séquençage et est réalisé par les enzymes ADAR. D'autres formes incluent l'édition de cytidine en uridine (C en T) catalysée par les enzymes APOBEC.
Ces événements d'édition posent des défis significatifs pour l'appel de variants RNA-Seq :
Sans données de séquençage ADN appariées, il est difficile de distinguer facilement les véritables variantes génomiques des événements d'édition de l'ARN. Cela repose sur :
Les méthodes avancées utilisent ces fonctionnalités et des algorithmes d'apprentissage automatique. Ces algorithmes sont formés sur des sites d'édition de confiance. Ils aident à mieux faire la distinction entre l'édition et la mutation.
Le séquençage d'ARN à cellule unique (scRNA-Seq) représente un changement de paradigme en transcriptomique en permettant l'analyse de l'expression génique et de la variation génétique à la résolution cellulaire. Cette approche offre plusieurs avantages pour l'appel de variants :
Des avancées méthodologiques récentes ont amélioré la détection des variants dans les données de scRNA-Seq :
Malgré ces avancées, des défis subsistent, notamment une couverture limitée par cellule, des taux d'abandon élevés et des biais d'amplification. Les développements en cours dans les méthodes de préparation de bibliothèques et les outils informatiques continuent d'améliorer la fiabilité de l'appel de variants à partir des données de cellules uniques.

Figure 3. Le nombre d'allèles KIR exprimés dans une cellule. (Song, L, 2023)
Les technologies traditionnelles de séquençage d'ARN à lecture courte sont limitées dans leur capacité à résoudre des motifs d'épissage complexes et à détecter des variants au sein des régions alternativement épissées. Séquençage à lecture longue plateformes, telles que Pacific Biosciences (PacBio) Iso-Seq et Oxford Nanopore Technologies (ONT) surmontent ces limitations en générant des lectures qui couvrent l'intégralité des transcrits :
Ces avantages sont particulièrement précieux pour :
Bien que les technologies de séquençage à longues lectures aient historiquement été limitées par des taux d'erreur plus élevés, les récentes améliorations dans la chimie de séquençage et les algorithmes d'appel de bases ont considérablement augmenté la précision. Les approches hybrides qui combinent la haute précision des courtes lectures avec les informations structurelles des longues lectures représentent une direction prometteuse pour un appel de variants complet.
Les approches traditionnelles d'appel de variantes s'appuient sur des génomes de référence linéaires et des alignements basés sur la position, qui sont sous-optimaux pour capturer l'ensemble du spectre de la diversité génétique humaine. Deux technologies émergentes transforment ce paysage :
Alignements basés sur des graphes remplacer les références linéaires par des structures graphiques qui intègrent les variations génétiques connues :
Approches d'apprentissage automatique et d'apprentissage profond exploiter plusieurs caractéristiques pour distinguer les véritables variantes des artefacts techniques :
Des outils comme DeepVariant, qui utilisent des réseaux de neurones convolutionnels pour analyser des "images" de lectures alignées, ont démontré des performances supérieures pour l'appel de variants ADN et sont en cours d'adaptation pour des applications RNA-Seq. Ces avancées computationnelles, combinées à l'augmentation des volumes de données pour l'entraînement, promettent d'améliorer considérablement la détection de variants à faible fréquence à partir des données RNA-Seq.
La convergence de ces technologies émergentes—résolution à cellule unique, séquençage à longues lectures, alignement basé sur des graphes et apprentissage automatique—annonce une nouvelle ère dans l'appel de variants RNA-Seq, permettant une caractérisation plus complète, précise et fonctionnellement pertinente de la variation génétique dans les gènes exprimés.
L'appel de variantes à partir de données RNA-Seq est une méthode puissante mais difficile pour détecter des changements génomiques dans les parties actives du génome. Les données RNA-Seq présentent des défis uniques. Ceux-ci incluent une couverture variable, des pertes alléliques, des biais spécifiques à l'brin et l'édition de l'ARN. Pour cette raison, nous avons besoin de méthodes spéciales. L'appel de variantes basé sur l'ADN ne fonctionnera pas ici. L'appel de variantes RNA-Seq présente des avantages clairs. Il cible les régions actives et capture la complexité génétique unique des transcrits.
Le domaine évolue rapidement, propulsé par des innovations technologiques et computationnelles. Les technologies de séquençage d'ARN à cellule unique révèlent de nouvelles couches de diversité cellulaire. De plus, les plateformes de séquençage à longues lectures fournissent des aperçus clairs sur les structures complexes du transcriptome. Les avancées computationnelles dans l'alignement basé sur des graphes et l'apprentissage automatique améliorent la détection des variants. Elles augmentent à la fois la sensibilité et la spécificité. Cela est particulièrement vrai pour les variants de faible fréquence que les méthodes traditionnelles pourraient manquer.
À mesure que ces technologies se développent et se connectent, nous pouvons anticiper une compréhension plus approfondie de la manière dont la variation génétique impacte l'expression phénotypique. L'avenir de l'appel de variants par RNA-Seq va au-delà de la détection des mutations. Il s'agit de situer ces mutations dans le contexte plus large de l'expression génique, de la dynamique d'épissage et de la diversité cellulaire. Cette perspective intégrée sera essentielle pour faire progresser notre compréhension de la génétique humaine, des mécanismes de la maladie et des approches de médecine personnalisée.
Pour les chercheurs et les cliniciens, il est essentiel de se tenir au courant de ces développements. Le choix des méthodologies appropriées et des pipelines analytiques doit être guidé par les questions de recherche spécifiques, les caractéristiques des échantillons et les ressources disponibles. À mesure que le domaine continue d'évoluer, l'intégration de plusieurs approches - combinant les forces des différentes technologies de séquençage, des méthodes computationnelles et des stratégies de validation - devrait probablement fournir les aperçus les plus complets et fiables sur le monde complexe des variations génétiques exprimées.
Référence :