Épissage alternatif, un mécanisme clé dans la régulation de l'expression génique eucaryote, contribue de manière significative à l'expansion de la diversité fonctionnelle au sein des gènes. Ce processus implique l'épissage sélectif des exons et introns interactifs dans les séquences génétiques biologiques, permettant à un seul gène de générer plusieurs transcrits. Chaque transcrit possède des sites d'épissage distincts dans la séquence codante, conduisant à la production de protéines aux fonctions diverses.
Environ 95 % des gènes subissent un épissage alternatif, ce qui entraîne l'expression d'environ quatre isoformes par gène. L'épissage alternatif se manifeste sous cinq types principaux :
Ces dernières années, séquençage d'ARN à grande échelle (RNA-Seq) est devenu un outil puissant pour réaliser des analyses transcriptomiques complètes. La baisse des coûts du séquençage profond a facilité des enquêtes à grande échelle sur l'expression génique et l'épissage alternatif, entraînant une augmentation de l'identification des maladies associées à ces variations d'épissage. Les connaissances acquises grâce à ces études offrent de grandes promesses pour le développement d'interventions préventives et thérapeutiques.
La cartographie précise et la quantification des événements d'épissage alternatif sont cruciales pour les analyses en aval, en particulier pour corréler les maladies avec des motifs d'épissage spécifiques. Malgré l'adoption généralisée de RNA-Seq à haut débit, discerner avec précision l'expression des homodimères et obtenir des résultats quantitatifs pour l'épissage alternatif à partir des données résultantes pose des défis continus.
Dans les expériences de RNA-Seq, l'ARNm est extrait des tissus, fragmenté et transcrit inversement en cDNAs. L'amplification et le séquençage ultérieurs par des méthodes de séquençage à haut débit et à courtes lectures génèrent des données de séquençage à partir d'échantillons de tissus. Idéalement, les segments de lecture du transcriptome peuvent être assemblés à l'aide de logiciels de comparaison pour reconstruire la région génomique transcrite. Les événements d'épissage alternatif peuvent ensuite être identifiés et quantifiés à l'aide de logiciels d'analyse spécialisés.
Cependant, des limitations techniques persistent, principalement en raison des longueurs de lecture limitées inhérentes au séquençage de nouvelle génération RNA-Seq (généralement comprises entre 50 pb et 150 pb). Le défi s'intensifie lorsqu'il s'agit de distinguer les isoformes de transcrits du même gène, car les segments de courtes lectures traversent rarement les sites d'épissage. Cette complexité complique l'inférence de transcriptions complètes, en particulier pour les transcrits à faible expression. De plus, l'identification des sites de début et de terminaison de transcription reste une tâche redoutable.
Veuillez lire notre article. PacBio Iso-Seq permettant une exploration approfondie du splicing alternatif, pour plus d'informations.
L'utilisation de logiciels d'analyse du splicing alternatif sur des données unicellulaires fournit des informations précieuses sur les différents sites de splicing alternatif et les gènes associés au sein de chaque sous-population ou échantillon. L'analyse différentielle qui suit aide à identifier les sites de splicing alternatif clés à travers différentes sous-populations ou les gènes liés à des phénotypes spécifiques. Cette exploration permet aux chercheurs de déchiffrer les associations complexes entre les sites d'événements de splicing alternatif et les différents types cellulaires ou phénotypes.
Lors de l'évaluation du splicing alternatif, il est crucial de considérer la répartition uniforme des lectures de cDNA sur l'ensemble du gène. Une distribution uniforme signifie une grande randomité dans la liaison des séquences capturées, facilitant une couverture complète de l'ARNm—un prérequis essentiel pour une analyse précise du splicing alternatif.
Bien que les transcriptomes unicellulaires en mode simple puissent capturer certaines informations sur les sites d'épissage alternatif, l'enrichissement à une seule extrémité limite la quantité d'informations disponibles. Cette limitation entrave l'explication complète des isoformes d'épissage alternatif et des protéines codées par le gène par la suite.
Au cours de la dernière décennie, des outils informatiques ont été développés pour relever ces défis. Étant donné l'accent mis par l'auteur sur les méthodes basées sur les événements et leur utilisation continue, voici un bref aperçu de six logiciels d'analyse du splicing alternatif : rMATS, MAJIQ, LeafCutter, SUPPA2, SplAdder et Whippet.
| Algorithme | Principe | Quantification | Analyse différentielle | Types de jonction | Transcriptions non annotées |
| rMATS | Basé sur des événements | PSI | oui | 5 | Vérifié |
| MAJIQ | Basé sur des événements | PSI | oui | 5 | Non vérifié |
| Coupe-feuille | Excision d'intron | PSI | oui | Inconnu | Vérifié |
| SUPPA2 | Basé sur des événements | PSI | oui | 7 | Non vérifié |
| SplAdder | Basé sur des événements | PSI | oui | 5 | Vérifié |
| Whippet | Basé sur des événements | PSI | oui | 9 | Non vérifié |