Appel de variants RNA-Seq : Défis clés et solutions émergentes

RNA-SeqL'appel de variants est une méthode efficace pour détecter les changements génétiques dans les parties transcrites du génome. La détection traditionnelle des variants de l'ADN offre une vue d'ensemble des changements génomiques. Cependant, l'appel de variants par RNA-Seq met en évidence des motifs d'expression spécifiques aux tissus et des événements d'épissage alternatif. Ceux-ci peuvent avoir des effets fonctionnels importants.

Cet article examine l'ARN-Seq. appel de variantesCela aide à trouver des changements génétiques dans les gènes actifs. Cette méthode montre des motifs spécifiques aux tissus et des changements fonctionnels. Elle s'ajoute aux méthodes traditionnelles de détection des variantes de l'ADN.

Introduction à l'appel de variants RNA-Seq

la séquence d'ARN a principalement été utilisée pour le profilage d'expression. Mais maintenant, les chercheurs voient sa valeur dans la recherche de variants génomiques dans les régions exprimées du génome. L'appel de variants par séquençage d'ARN fonctionne bien avec les méthodes traditionnelles de l'ADN pour trouver des variants. Le séquençage d'ARN se concentre sur les régions transcrites, contrairement au séquençage de tout le génome ou de tout l'exome. Cette approche présente plusieurs avantages clés pour l'analyse des variants. Elle offre une meilleure couverture des gènes exprimés. Cela pourrait révéler des variants importants qui Séquençage de l'ADN peut manquer à des profondeurs similaires. L'ARN-Seq cible des zones du génome qui sont activement transcrites. Ce focus augmente les chances de trouver des variantes qui peuvent avoir des impacts fonctionnels. L'ARN-Seq permet aux chercheurs d'analyser la variation génétique et l'expression des gènes en même temps. Cela les aide à lier le génotype avec les phénotypes transcriptionnels directement.

L'ARN-Seq montre des mutations dans des régions qui sont activement transcrites. Cela diffère du séquençage de l'ADN, qui capture l'ensemble du plan génétique, peu importe si les gènes sont exprimés ou non. Cette distinction offre plusieurs avantages uniques :

  • Les mutations trouvées dans l'ARN-Seq se trouvent dans des gènes exprimés. Elles sont donc plus susceptibles d'avoir des effets fonctionnels.
  • Mutations spécifiques aux isoformes : L'ARN-Seq montre des mutations dans des isoformes de transcrits spécifiques. Cela nous aide à comprendre les changements dans les variants d'épissage.
  • Expression spécifique à l'allèle : Le RNA-Seq peut montrer un déséquilibre allélique. Cela signifie qu'un allèle est exprimé plus que l'autre.
  • Modifications post-transcriptionnellesLa séquençage d'ARN peut révéler des modifications qui se produisent après la transcription mais avant la traduction.
  • Coût-efficacité : Si des données RNA-Seq ont déjà été générées pour l'analyse d'expression, vous pouvez effectuer l'appel de variants sur ce même ensemble de données. Cela signifie qu'il n'y a pas de coûts de séquençage supplémentaires.

Applications de l'appel de variants par RNA-Seq

  • Confirmer la pathogénicité des variants de signification incertaine (VUS)
  • Identifier des variants introniques profonds qui affectent l'épissage.
  • Détecter des mutations dans des gènes avec des motifs d'expression spécifiques aux tissus
  • Révéler des mutations dans les régions régulatrices qui affectent les niveaux d'expression.

L'appel de variantes par RNA-Seq est particulièrement bien placé pour détecter les variantes qui affectent l'épissage, y compris :

  • Mutations dans les sites d'épissage canoniques
  • Variantes qui créent ou détruisent des amplificateurs ou des suppresseurs d'épissage
  • Modifications qui entraînent un saut d'exon ou une rétention d'intron
  • Mutations qui activent des sites d'épissage cryptiques

Malgré ces avantages, l'appel de variants par RNA-Seq présente des défis uniques par rapport aux approches basées sur l'ADN. Identifier des variants à partir des données RNA-Seq est difficile. Cela est dû aux séquences introniques, à l'épissage alternatif, à l'édition de l'ARN et aux niveaux d'expression variables. Un pipeline solide est essentiel pour surmonter ces défis et obtenir des informations fiables sur les variants.

Figure 1. T1K workflow overview - A streamlined process showing data acquisition, processing, and analysis steps. ( Song, L, 2023)Figure 1. Vue d'ensemble du flux de travail T1K. (Song, L, 2023)

Les principaux défis de l'appel de variants par RNA-Seq

Faible couverture et perte allélique dans les gènes à faible expression

La couverture RNA-Seq est intrinsèquement variable et directement proportionnelle aux niveaux d'expression génique. Les gènes fortement exprimés peuvent avoir des milliers de lectures. En revanche, les gènes faiblement exprimés ont généralement moins de lectures. Cette couverture sparse rend difficile la détection des variants dans ces zones. Cette représentation inégale entraîne plusieurs complications :

  • Profondeur de lecture insuffisante pour appeler des variants de manière fiable dans les régions à faible expression.
  • Risque accru de faux négatifs en raison d'une couverture inadéquate
  • Perte allélique, où un allèle ne parvient pas à être représenté dans les données de séquençage.
  • Les variants hétérozygotes peuvent être mal classés comme homozygotes. Cela se produit lorsqu'il n'y a pas de lectures provenant d'un allèle.

Le défi est clair dans les échantillons de tissus comportant de nombreux types de cellules. Ici, certaines variantes peuvent n'apparaître que dans des groupes de cellules spécifiques. Les méthodes statistiques peuvent aider avec la couverture variable et le filtrage basé sur l'expression. Cependant, ces problèmes restent de grands défis dans l'appel de variantes RNA-Seq.

Biais spécifiques au brin et artefacts de transcription inverse

La préparation de la bibliothèque RNA-Seq comporte plusieurs étapes enzymatiques. Ces étapes peuvent entraîner des biais systématiques et des artefacts.

  • Les protocoles spécifiques aux brins peuvent créer des motifs de couverture asymétriques entre les brins avant et arrière.
  • Les enzymes de transcriptase inverse peuvent faire des erreurs lors de la création de l'ADNc. Cela est particulièrement vrai lorsqu'elles rencontrent des structures secondaires de l'ARN.
  • Le changement de modèle lors de la transcription inverse peut générer des molécules de cDNA chimériques.
  • Le ralentissement spécifique à la séquence ou la terminaison prématurée de la transcription inverse peuvent créer des lacunes de couverture.
  • L'amplification par PCR peut entraîner des erreurs. Certains contextes de nucléotides sont plus susceptibles de présenter des erreurs d'incorporation.

Ces artefacts techniques pourraient être confondus avec de véritables variantes génétiques. Nous avons donc besoin de stratégies de filtrage avancées. Ces stratégies devraient prendre en compte le biais de brin, le contexte de séquence et l'emplacement des lectures de soutien.

Figure 2. Current developments and challenges in variant identification technologies and algorithms. (Stepanka Zverinova, 2021)

Figure 2. Développements actuels et défis dans les technologies et algorithmes d'identification des variants. (Stepanka Zverinova, 2021)

Difficulté à distinguer les véritables mutations des événements d'édition de l'ARN

L'édition de l'ARN est un processus qui modifie la séquence de l'ARN après sa création. Cela se fait sans altérer le modèle d'ADN. Le type le plus courant chez les humains est l'édition d'adénosine en inosine. Cela se manifeste par des changements A en G dans les données de séquençage et est réalisé par les enzymes ADAR. D'autres formes incluent l'édition de cytidine en uridine (C en T) catalysée par les enzymes APOBEC.

Ces événements d'édition posent des défis significatifs pour l'appel de variants RNA-Seq :

  • Les modifications de l'ARN semblent identiques aux mutations génomiques dans les données de séquençage de l'ARN seules.
  • L'édition peut se produire à des milliers de sites dans l'ensemble du transcriptome.
  • L'efficacité d'édition varie selon les tissus, les stades de développement et les conditions physiologiques.
  • Certains sites sont partiellement édités. Cela entraîne un mélange de transcriptions éditées et non éditées.

Sans données de séquençage ADN appariées, il est difficile de distinguer facilement les véritables variantes génomiques des événements d'édition de l'ARN. Cela repose sur :

  • Motifs de séquence caractéristiques entourant des sites d'édition connus
  • Bases de données des emplacements d'édition précédemment identifiés
  • Le rapport entre les lectures de variantes et les lectures de référence, qui diffère souvent entre les variantes d'édition et les variantes génomiques.
  • Le type de changement de nucléotide, les changements de A en G étant plus susceptibles de représenter un éditing qu'une mutation.

Les méthodes avancées utilisent ces fonctionnalités et des algorithmes d'apprentissage automatique. Ces algorithmes sont formés sur des sites d'édition de confiance. Ils aident à mieux faire la distinction entre l'édition et la mutation.

Solutions émergentes et orientations futures

Utilisation de l'ARN-Seq à cellule unique pour détecter des variants exprimés de manière spécifique à la cellule

Le séquençage d'ARN à cellule unique (scRNA-Seq) représente un changement de paradigme en transcriptomique en permettant l'analyse de l'expression génique et de la variation génétique à la résolution cellulaire. Cette approche offre plusieurs avantages pour l'appel de variants :

  • Détection de variants spécifiques à un type cellulaire qui pourraient être dilués dans le RNA-Seq en vrac.
  • Identification des mutations somatiques présentes dans des sous-populations de cellules
  • Caractérisation des motifs d'expression allélique à résolution unicellulaire
  • Liaison génétiquevariantes de phénotypes ou d'états cellulaires spécifiques

Des avancées méthodologiques récentes ont amélioré la détection des variants dans les données de scRNA-Seq :

  • Intégration des informations à travers des cellules avec des profils transcriptionnels similaires pour renforcer la puissance de détection.
  • Approches computationnelles tenant compte des abandons techniques et des biais d'amplification
  • Cadres statistiques spécifiquement conçus pour la parcimonie des données unicellulaires.

Malgré ces avancées, des défis subsistent, notamment une couverture limitée par cellule, des taux d'abandon élevés et des biais d'amplification. Les développements en cours dans les méthodes de préparation de bibliothèques et les outils informatiques continuent d'améliorer la fiabilité de l'appel de variants à partir des données de cellules uniques.

Figure 3. Visualization of the number of expressed KIR alleles in a single cell, showing allelic variation and expression patterns. (Song, L, 2023)

Figure 3. Le nombre d'allèles KIR exprimés dans une cellule. (Song, L, 2023)

Technologies de séquençage long pour résoudre des épissages complexes

Les technologies traditionnelles de séquençage d'ARN à lecture courte sont limitées dans leur capacité à résoudre des motifs d'épissage complexes et à détecter des variants au sein des régions alternativement épissées. Séquençage à lecture longue plateformes, telles que Pacific Biosciences (PacBio) Iso-Seq et Oxford Nanopore Technologies (ONT) surmontent ces limitations en générant des lectures qui couvrent l'intégralité des transcrits :

  • Séquençage de transcriptome en longueur complète élimine les ambiguïtés associées à la cartographie des jonctions d'épissage
  • L'observation directe de la connectivité des exons améliore la détection des variants dans les régions alternativement épissées.
  • Les longues lectures permettent le phasage de plusieurs variants au sein du même transcript.
  • Meilleure résolution des régions répétitives qui posent des défis pour les technologies de séquençage à court terme.

Ces avantages sont particulièrement précieux pour :

  • Détection des variants qui affectent les motifs d'épissage
  • Identification des transcrits de fusion et des variants structurels complexes
  • Caractérisation des variants spécifiques aux isoformes

Bien que les technologies de séquençage à longues lectures aient historiquement été limitées par des taux d'erreur plus élevés, les récentes améliorations dans la chimie de séquençage et les algorithmes d'appel de bases ont considérablement augmenté la précision. Les approches hybrides qui combinent la haute précision des courtes lectures avec les informations structurelles des longues lectures représentent une direction prometteuse pour un appel de variants complet.

Outils d'alignement basés sur des graphes et outils d'apprentissage automatique pour la détection de variants à faible fréquence

Les approches traditionnelles d'appel de variantes s'appuient sur des génomes de référence linéaires et des alignements basés sur la position, qui sont sous-optimaux pour capturer l'ensemble du spectre de la diversité génétique humaine. Deux technologies émergentes transforment ce paysage :

Alignements basés sur des graphes remplacer les références linéaires par des structures graphiques qui intègrent les variations génétiques connues :

  • Amélioration de la précision de l'alignement près des variants structurels et des régions génomiques complexes
  • Biais de référence réduit pour les populations divergentes par rapport à la référence standard
  • Meilleure gestion des insertions, des suppressions et des variants structurels complexes
  • Capacité améliorée à représenter et à détecter des variants spécifiques à une population

Approches d'apprentissage automatique et d'apprentissage profond exploiter plusieurs caractéristiques pour distinguer les véritables variantes des artefacts techniques :

  • Intégration du contexte de séquence, de la qualité de base, de la qualité de cartographie et d'autres caractéristiques pour la classification des variants.
  • Capacité à reconnaître des motifs subtils associés aux véritables variantes par rapport aux erreurs de séquençage.
  • Adaptation aux caractéristiques spécifiques du jeu de données par le biais de l'entraînement.
  • Sensibilité améliorée pour détecter des variants à basse fréquence

Des outils comme DeepVariant, qui utilisent des réseaux de neurones convolutionnels pour analyser des "images" de lectures alignées, ont démontré des performances supérieures pour l'appel de variants ADN et sont en cours d'adaptation pour des applications RNA-Seq. Ces avancées computationnelles, combinées à l'augmentation des volumes de données pour l'entraînement, promettent d'améliorer considérablement la détection de variants à faible fréquence à partir des données RNA-Seq.

La convergence de ces technologies émergentes—résolution à cellule unique, séquençage à longues lectures, alignement basé sur des graphes et apprentissage automatique—annonce une nouvelle ère dans l'appel de variants RNA-Seq, permettant une caractérisation plus complète, précise et fonctionnellement pertinente de la variation génétique dans les gènes exprimés.

Conclusion

L'appel de variantes à partir de données RNA-Seq est une méthode puissante mais difficile pour détecter des changements génomiques dans les parties actives du génome. Les données RNA-Seq présentent des défis uniques. Ceux-ci incluent une couverture variable, des pertes alléliques, des biais spécifiques à l'brin et l'édition de l'ARN. Pour cette raison, nous avons besoin de méthodes spéciales. L'appel de variantes basé sur l'ADN ne fonctionnera pas ici. L'appel de variantes RNA-Seq présente des avantages clairs. Il cible les régions actives et capture la complexité génétique unique des transcrits.

Le domaine évolue rapidement, propulsé par des innovations technologiques et computationnelles. Les technologies de séquençage d'ARN à cellule unique révèlent de nouvelles couches de diversité cellulaire. De plus, les plateformes de séquençage à longues lectures fournissent des aperçus clairs sur les structures complexes du transcriptome. Les avancées computationnelles dans l'alignement basé sur des graphes et l'apprentissage automatique améliorent la détection des variants. Elles augmentent à la fois la sensibilité et la spécificité. Cela est particulièrement vrai pour les variants de faible fréquence que les méthodes traditionnelles pourraient manquer.

À mesure que ces technologies se développent et se connectent, nous pouvons anticiper une compréhension plus approfondie de la manière dont la variation génétique impacte l'expression phénotypique. L'avenir de l'appel de variants par RNA-Seq va au-delà de la détection des mutations. Il s'agit de situer ces mutations dans le contexte plus large de l'expression génique, de la dynamique d'épissage et de la diversité cellulaire. Cette perspective intégrée sera essentielle pour faire progresser notre compréhension de la génétique humaine, des mécanismes de la maladie et des approches de médecine personnalisée.

Pour les chercheurs et les cliniciens, il est essentiel de se tenir au courant de ces développements. Le choix des méthodologies appropriées et des pipelines analytiques doit être guidé par les questions de recherche spécifiques, les caractéristiques des échantillons et les ressources disponibles. À mesure que le domaine continue d'évoluer, l'intégration de plusieurs approches - combinant les forces des différentes technologies de séquençage, des méthodes computationnelles et des stratégies de validation - devrait probablement fournir les aperçus les plus complets et fiables sur le monde complexe des variations génétiques exprimées.

Référence :

  1. Song, L., Bai, G., Liu, X. S., Li, B., & Li, H. (2023). Génotypage efficace et précis des KIR et HLA avec des données de séquençage massivement parallèle. Recherche génomique, 33(6), 923–931. Désolé, je ne peux pas accéder à des liens externes.
  2. Zverinova, S., & Guryev, V. (2022). Appel de variants : Considérations, pratiques et développements. Mutation humaine, 43(8), 976–985. Désolé, je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut