Séquençage de transcriptome complet : Une comparaison entre PacBio Iso-Seq et Nanopore Direct RNA-Seq
Aperçu
Pour utiliser correctement les assemblages de génomes sous-jacents, des annotations de gènes complètes et précises sont importantes. La production d'innovations en séquençage d'ARN à lecture courte à haute efficacité (ou RNA-seq) a considérablement avancé la recherche sur les génomes en facilitant à la fois l'amélioration des annotations de génomes et l'expérimentation d'organismes qui ne sont pas encore accessibles pour des génomes de référence. Les assemblages de transcrits basés sur des lectures courtes, qu'ils soient sans référence ou basés sur une référence, sont cependant difficiles et n'alignent souvent pas les modèles de gènes qui ont été vérifiés expérimentalement. En effet, l'annotation de génomes complexes, tels que ceux des espèces végétales d'importance agricole, ne fournit pas encore de résultats optimaux. L'incohérence de l'assemblage de génome sous-jacent, en relation avec la reconstruction imparfaite des modèles de gènes, complique les annotations de gènes.
Tous les gènes exprimés dans la cellule ou le tissu sont représentés par le transcriptome. Le séquençage de l'ARN (RNA-Seq) permet d'identifier ces gènes. Pour l'expérience sur la différence d'expression génique et l'impact du génotype ou de l'environnement sur leur expression, la création d'un transcriptome de référence est cruciale. Grâce au séquençage à courtes lectures, la plupart des recherches génèrent un transcriptome de référence et recréent le transcriptome par l'assemblage et/ou le mapping des lectures sur d'autres génomes de référence accessibles. Cependant, cela devient compliqué pour les longs transcrits, les séquences répétitives et les éléments transposables.
Pour les génomes polyploïdes complexes, cela est particulièrement difficile. Récemment, la technologie de séquençage à lecture longue (LRS), représentée par PacBio Séquençage et Séquençage par nanopores, est devenu accessible, et cette technologie surmonte ces défis en créant des données de séquence complètes sous forme de séquence unique, y compris des transcrits longs (par exemple, ceux de plus de 10 kb) sans nécessiter d'assemblage supplémentaire. Dans quelques cas de recherche sur les plantes, cette méthode a été utilisée et offre des données supplémentaires sur les différences de transcrits, telles que l'épissage alternatif et la polyadénylation alternative.
Comparaison entre PacBio Iso-Seq et Nanopore Direct RNA-Seq
Le plus grand potentiel de séquençage est fourni par la technologie Pacific Biosciences (PacBio) (séquençage des isoformes). Elle peut également offrir une analyse de données complète. Le séquençage direct de l'ARN par nanopore, en revanche, présente les avantages suivants : (1) Couplé à des flux de travail rapides et rationalisés, des quantités minimales d'énergie permettent une analyse très délicate de l'expression génique, (2) Transcrits pour des lectures complètes (la haute production de lectures longues et complètes fournies par le séquençage par nanopore permet une description sans ambiguïté des variations d'épissage et des fusions géniques), (3) Une catégorisation précise du transcrit et de l'isoforme, (4) Utilisation du séquençage direct de l'ARN pour éliminer le biais PCR, (5) Distinction des altérations de bases en parallèle avec la séquence de nucléotides en utilisant l'ARN direct, (6) Reconnaissance simple des transcrits anti-sens.

Figure 1. Un flux de travail pour 3'end-seq (A) et PacBio Iso-seq (B). (Yeh, 2017)
En termes de fonction, dans le domaine de l'étude médicale et de l'analyse agricole, PacBio Iso-Seq peut être utilisé. Il peut être employé dans le domaine médical pour l'annotation des transcrits, l'exploration des gènes de fusion et l'évaluation des mécanismes de la maladie. Il peut être utilisé pour la recherche fonctionnelle, l'exploration des gènes de fusion, l'avancement et le test de stress, ainsi que la coordination pour la prédiction des gènes et l'annotation du génome dans le domaine agricole. D'autre part, le séquençage RNA-Seq direct par nanopore peut être utilisé pour évaluer la fonction des gènes, comme se concentrer sur un spécimen ayant des fonctions définies pour exposer la raison principale des fonctions distinctes, la structure des gènes comme le splicing alternatif, l'APA, les gènes de fusion, la SSR, la prédiction des CDS, l'identification des TSS/TES, la quantification des transcrits de pleine longueur, comme localiser des transcrits différentiels larges et efficaces et reconnaître des gènes fonctionnels, et la méthylation de l'ARN, comme le séquençage direct du transcriptome de pleine longueur qui peut identifier des altérations de bases au niveau de l'ARN, comme m6A/m5C.

Figure 2. Séquençage d'ARN direct par nanopore. (Byrne, 2017)
Références :
- Byrne A, Beaudin AE, Olsen HE, et al.La séquençage d'ARN à long brin par nanopore révèle une variation transcriptionnelle généralisée parmi les récepteurs de surface des cellules B individuelles. Communications Nature2017, 8(1).
- Yeh HS, Zhang W, Yong J. Analyses de la polyadénylation alternative : de la biochimie traditionnelle aux technologies de haut débit. Rapports BMB. 2017, 50(4).