Séquençage des isoformes (Iso-Seq) est une technologie de séquençage en temps réel à molécule unique développée par PacBio, utilisée pour l'analyse et la caractérisation fonctionnelle des transcrits complets. Cette technologie peut fournir des données de séquence de transcrits complets de haute qualité en séquençant directement les molécules d'ARN sans assemblage du transcriptome. Cette méthode est particulièrement adaptée à l'annotation des gènes, à la découverte d'isomères, à la recherche sur l'épissage alternatif, à la polyadénylation (APA) et à la détection de fusions géniques.
Iso-Seq est un séquençage en temps réel de molécules uniques technologie basée sur la plateforme PacBio, qui est utilisée pour le séquençage et l'analyse des transcrits complets. Ses étapes clés comprennent les liens suivants :
Transformation de l'ARN en cDNA : Tout d'abord, les échantillons d'ARN sont transformés en cDNA, qui est la base du séquençage ultérieur.
Construction d'une bibliothèque de cDNA : Insérer des fragments de cDNA dans des vecteurs de bibliothèque adaptés au séquençage, tels que le format de bibliothèque SMRTbell.
Séquençage : Le système Sequel est utilisé pour le séquençage afin de générer des données de lecture longues de haute qualité.
Génération de séquence de consensus circulaire (CCS) : Traitement des données de séquençage originales par un algorithme avancé de PacBio pour générer une séquence de consensus circulaire de haute qualité.
Analyse des données : En utilisant des outils logiciels spécialisés (tels que SMRT Link ou TAGET), analysez les données générées, y compris l'identification des isomères de transcrits, des variations d'épissage, des sites de polyadénylation, etc.
Protocole schématique de l'Iso-Seq (An et al., 2018)
Importance d'un guide complet pour les expériences Iso-Seq
Parce que l'expérience Iso-Seq implique de nombreuses étapes, de la préparation de l'échantillon à analyse de donnéesChaque étape nécessite une opération précise et une optimisation. Il est donc très important de fournir un guide expérimental complet pour garantir le succès de l'expérience et la fiabilité des résultats. Par exemple, le contrôle de la qualité de l'ARN, l'optimisation de la construction de la bibliothèque et l'ajustement des paramètres de séquençage doivent être pris en compte lors de la préparation des échantillons.
En termes d'analyse de données, PacBio recommande d'utiliser le logiciel SMRT Link pour l'analyse de polyploïdie et d'isomères, ainsi qu'une caractérisation fonctionnelle supplémentaire en combinant avec des outils communautaires tels que SQANTI, TAMA et LoReAn. De plus, pour différents types d'échantillons (comme les cellules uniques ou les échantillons de longues lectures), il est nécessaire de sélectionner des kits et des procédures d'analyse appropriés.
Afin d'améliorer l'efficacité de l'analyse des données et de réduire les erreurs, les chercheurs ont besoin d'un processus systématique pour traiter les données Iso-Seq. Cela inclut le contrôle de qualité, le splicing et l'annotation des données de séquençage originales, l'analyse de l'expression différentielle et l'annotation fonctionnelle. De plus, avec l'approfondissement de la recherche, comment intégrer les données Iso-Seq avec d'autres données omiques (telles que RNA-Seq et les données d'omics protéiques) pour obtenir des informations biologiques plus complètes est également une direction importante de la recherche actuelle.
Services qui pourraient vous intéresser
Vous voulez en savoir plus sur les détails de l'Iso-seq ? Consultez ces articles.:
Le processus Iso-seq consiste principalement à extraire de l'ARN de haute qualité à partir d'échantillons, puis à le transcrire à l'envers pour synthétiser de l'ADNc complet, ensuite à fragmenter l'ADNc, puis à le connecter à un adaptateur de séquençage pour construire une bibliothèque de séquençage, puis à charger la bibliothèque dans un séquenceur PacBio, obtenir une séquence de lecture longue contenant des informations transcriptomiques complètes en utilisant la technologie de séquençage en temps réel sur une seule molécule, et enfin à utiliser un logiciel d'analyse spécial pour la correction de séquence, le regroupement et l'annotation afin d'identifier et de caractériser avec précision différents isomères de transcrits.
A. Préparation des échantillons
a) Méthodes et outils : L'extraction d'ARN adopte généralement la méthode phénol-chloroforme, la méthode de colonne en gel de silice ou la méthode des billes magnétiques. La méthode phénol-chloroforme est simple mais sujette à la contamination, la méthode de colonne en gel de silice offre une haute pureté mais à un coût élevé, et la méthode des billes magnétiques combine les avantages de la rapidité, de l'automatisation et d'un bon rendement. De plus, les méthodes couramment utilisées incluent l'utilisation de kits commerciaux, tels que les kits RNeasy de Qiagen, qui sont basés sur la technologie des membranes en silice. Ces kits peuvent isoler efficacement l'ARN total à partir de divers types d'échantillons, y compris les tissus, les cellules et le sang. Pour les échantillons végétaux, la méthode CTAB (bromure de cétyltriméthylammonium) est souvent utilisée, car elle est efficace pour traiter les niveaux élevés de polysaccharides et de polyphénols présents dans les tissus végétaux. Des outils comme les centrifugeuses sont essentiels pour séparer les phases lors de l'extraction, et les spectrophotomètres sont utilisés pour mesurer la concentration de l'ARN extrait.
Le flux de travail de l'extraction d'ARN (Griffith et al., 2015)
b) Évaluation de la qualité : La qualité de l'ARN peut être évaluée en mesurant le ratio A260/A280 (la plage idéale est de 2,0-0,2) et le ratio A260/A230 (la plage idéale est de 2,0-0,2) à l'aide d'un spectrophotomètre. La qualité de l'ARN extrait est essentielle pour les applications en aval. Le nombre d'intégrité de l'ARN (RIN) est une métrique largement utilisée pour évaluer la qualité de l'ARN. Il varie de 1 à 10, 10 indiquant la meilleure qualité. Les valeurs de RIN sont déterminées à l'aide de systèmes d'électrophorèse capillaire automatisés, tels que l'Agilent 2100 Bioanalyzer. Un échantillon d'ARN avec une valeur de RIN de 7 ou plus est généralement considéré comme adapté pour l'Iso-Seq. Les échantillons avec des valeurs de RIN plus faibles peuvent entraîner un ARN dégradé, conduisant à des résultats de séquençage incomplets ou inexacts.
Contrôle de la qualité et sélection de la taille de l'ARN (Griffith et al., 2015)
a) Méthode de transcription inverse : Utilisation du Smarter Total RNA-SeqKit (Clontech) ou du Kapa Hifi RNA-to-cDNA Synthesis Kit pour synthétiser de l'ADNc. Ces méthodes transcrivent l'ARN en ADNc à l'aide de primers aléatoires ou de primers oligo (dT), et améliorent l'efficacité d'amplification en utilisant l'enzyme KAPA HiFi. Le priming avec des hexamères aléatoires est une approche plus générale qui peut se lier à n'importe quelle région de la molécule d'ARN, ce qui la rend adaptée à une large gamme de transcrits. Le priming spécifique au gène est utilisé lorsque seuls des transcrits spécifiques sont d'intérêt. Les enzymes de transcriptase inverse, telles que Superscript III, sont couramment utilisées dans ces réactions.
Synthèse schématique de l'ADNc (Griffith et al., 2015)
b) Inspection de la qualité de l'ADNc : Après la synthèse de l'ADNc, il est important d'effectuer des contrôles de qualité. Cela peut être réalisé en faisant migrer l'ADNc sur un gel d'agarose pour vérifier la présence d'un flou ou de bandes spécifiques, indiquant une synthèse réussie. De plus, la PCR quantitative (qPCR) peut être utilisée pour évaluer la quantité et l'intégrité de l'ADNc. L'ADNc doit avoir une concentration homogène et être exempt d'inhibiteurs pouvant affecter les étapes ultérieures de préparation de la bibliothèque et de séquençage. Vérifiez la distribution de taille des fragments d'ADNc pour vous assurer qu'ils sont adaptés à la construction de la bibliothèque suivante.
Distribution de taille différente de l'ADNc avant et après la sélection de taille (Griffith et al., 2015)
B. Construction de la bibliothèque
a) Sélection de taille et amplification : Pour la construction de bibliothèques PacBio, la sélection de taille est une étape importante. Cela peut être réalisé en utilisant des techniques telles que l'extraction par gel ou l'utilisation de billes de sélection de taille. L'objectif est d'isoler des fragments d'ADNc dans une plage de taille spécifique, généralement autour de 1 à 10 kb pour l'analyse des transcrits en longueur complète. Ensuite, la bibliothèque a été amplifiée par PCR KAPA HiFi pour augmenter la concentration de la bibliothèque. Les amorces utilisées dans cette étape d'amplification sont conçues pour ajouter les séquences d'adaptateurs nécessaires pour le séquençage sur la plateforme PacBio.
b) Étape de contrôle de la qualité : Le contrôle de la qualité de la bibliothèque construite est essentiel. Cela inclut la mesure de la concentration de la bibliothèque à l'aide de méthodes telles que la fluorométrie Qubit, qui fournit une mesure plus précise de la concentration en ADN par rapport à la spectrophotométrie. De plus, la bibliothèque est analysée par électrophorèse capillaire ou d'autres méthodes à haut débit pour vérifier la présence de la distribution de taille correcte des fragments. Toute bibliothèque ne répondant pas aux normes de qualité peut nécessiter une réamplification ou une reconstruction.
Les méthodes de construction de bibliothèques Iso-Seq les plus courantes (Erwin et al., 2014)
a) Chargement de la cellule SMRT : La cellule SMRT est la plateforme de séquençage du système PacBio. Le chargement de la cellule SMRT implique d'ajouter soigneusement la bibliothèque préparée dans la cellule, en veillant à utiliser la bonne concentration et le bon volume. La bibliothèque est mélangée avec des réactifs de séquençage, y compris de la polymérase et des nucléotides, avant d'être chargée dans la cellule, et chaque cellule est chargée avec environ 100-200 ng de bibliothèque.
b) Paramètres de séquençage : Plusieurs paramètres de séquençage doivent être configurés, tels que la durée du film, qui détermine combien de temps durera la course de séquençage. Des durées de film plus longues peuvent augmenter la couverture et la probabilité d'obtenir des transcrits complets, mais elles augmentent également le coût et le temps de l'expérience. D'autres paramètres incluent le temps de liaison de la polymérase et les réglages de température, qui sont optimisés pour garantir un séquençage précis et efficace. La plateforme PacBio Sequel II est recommandée pour le séquençage, et le temps de séquençage est fixé à 180 minutes, afin d'obtenir des données de lecture longues de haute qualité.
C. Génération de données et contrôle de qualité
a) Après le séquençage, des données brutes sont générées sous forme de fichiers de signal. Ces fichiers doivent être traités pour obtenir les lectures de séquence. Les vérifications initiales des données brutes incluent l'évaluation de la qualité du signal, le nombre de lectures générées et la distribution des longueurs de lecture. Tout signe évident de mauvaise qualité du signal ou de faible nombre de lectures peut indiquer des problèmes avec le séquençage ou la préparation de la bibliothèque.
a) La correction d'erreurs est une étape nécessaire dans le traitement des données Iso-Seq en raison du taux d'erreur relativement élevé de la technologie de séquençage PacBio. Des outils comme Canu et Falcon sont couramment utilisés pour la correction d'erreurs. Ces outils utilisent des algorithmes pour corriger les erreurs de séquençage en comparant plusieurs lectures de la même région. Après la correction d'erreurs, des étapes de prétraitement telles que la coupe des adaptateurs et le filtrage des lectures de faible qualité sont effectuées. Des logiciels comme BBDuk peuvent être utilisés pour la coupe des adaptateurs, et des outils comme FastQC peuvent être utilisés pour évaluer la qualité des lectures prétraitées.
D. Analyse des données
a) Processus et outils recommandés : L'assemblage des transcrits est le processus qui consiste à rassembler les lectures corrigées pour former des transcrits complets. Des pipelines comme le pipeline PacBio Iso-Seq sont spécialement conçus à cet effet. Des outils tels que StringTie et Cufflinks peuvent également être utilisés pour l'assemblage des transcrits. Après l'assemblage, l'identification des isoformes est réalisée pour identifier les différentes variantes d'épissage du même gène. Ces outils utilisent des algorithmes pour comparer les transcrits assemblés et identifier les régions d'épissage alternatif.
a) Ressources et bases de données en bioinformatique : L'annotation fonctionnelle des transcrits identifiés implique l'attribution de fonctions biologiques à ceux-ci. Cela peut être réalisé en utilisant des ressources telles que la base de données Gene Ontology (GO), qui fournit des informations sur la fonction moléculaire, le processus biologique et le composant cellulaire des gènes. La base de données Kyoto Encyclopedia of Genes and Genomes (KEGG) est également utile pour comprendre les voies métaboliques et les processus biologiques dans lesquels les gènes sont impliqués. Pour l'analyse de l'épissage alternatif, des bases de données comme la Human Splicing Database (HSD) peuvent être utilisées pour comparer les événements d'épissage identifiés avec des motifs d'épissage connus.
E. Interprétation et visualisation des données
a) Plusieurs outils sont disponibles pour visualiser les résultats d'Iso-Seq. Integrative Genomics Viewer (IGV) est un outil populaire qui peut afficher les lectures alignées, les transcrits et les modèles de gènes. Il permet aux chercheurs de visualiser les événements d'épissage alternatif, la couverture des lectures et la distribution des transcrits entre différents gènes. Un autre outil, Circos, peut être utilisé pour créer des visualisations circulaires des données, qui sont utiles pour comparer plusieurs échantillons ou pour visualiser les relations entre différents gènes.
Captures d'écran IGV des lectures dues à un amorçage interne oligo-dT (Prech et al., 2020)
a) Une fois l'analyse des données terminée, il est important de rapporter et de partager les données Iso-Seq. Cela peut être fait en publiant les résultats dans des revues scientifiques, accompagnés des données brutes déposées dans des bases de données publiques telles que l'Archive des lectures de séquences (SRA) du Centre national pour l'information biotechnologique (NCBI). De plus, les chercheurs peuvent partager leurs scripts d'analyse et leurs données traitées sur des plateformes comme GitHub, ce qui permet à d'autres chercheurs de reproduire l'analyse et de s'appuyer sur les résultats. Un rapport clair et détaillé des méthodes, des résultats et des sources de données est essentiel pour la reproductibilité et la transparence de la recherche.
Les étapes ci-dessus couvrent l'ensemble du processus expérimental Iso-Seq, de la préparation des échantillons à l'analyse des données. Chaque étape combine les technologies et outils actuels les plus répandus pour garantir l'efficacité et la précision de l'expérience. Par exemple, l'extraction d'ARN utilise des kits commerciaux pour assurer la pureté et l'intégrité. La synthèse d'ADNc utilise un kit SMARTer efficace. La construction de la bibliothèque combine des techniques de sélection de taille et d'amplification. Dans la partie analyse des données, il est recommandé d'utiliser des outils tels que LoRC et GMAP pour assembler et annoter des transcrits de haute qualité. Ces étapes fournissent une base solide pour une analyse approfondie de l'expression génique et de la complexité du transcriptome.
Bien que la technologie Iso-Seq présente des avantages évidents, il existe encore de nombreux problèmes. Lors de la préparation des échantillons, la qualité de l'extraction d'ARN est instable, facilement affectée par des facteurs tels que la pollution, la dégradation ou la faible pureté, ce qui réduit la qualité des données de séquençage. En séquençage, il est courant que la profondeur de séquençage soit insuffisante, et il est difficile d'obtenir suffisamment d'informations sur le transcriptome complet en raison de la courte longueur de lecture ou de la petite taille de l'échantillon. Dans l'analyse des données, il est difficile de détecter des isomères, ce qui est limité par l'incomplétude de la séquence de référence du génome et le faible niveau d'expression des isomères.
Problèmes courants dans les expériences Iso-Seq
Meilleures pratiques pour mener à bien des expériences Iso-Seq
Grâce aux conseils de dépannage et aux meilleures pratiques ci-dessus, le taux de réussite de l'expérience Iso-Seq peut être efficacement amélioré, et un soutien de données de haute qualité peut être fourni pour les recherches ultérieures.
Le protocole Iso-Seq comprend cinq étapes principales : la transformation de l'ARN en cDNA, la construction d'une bibliothèque SMRTbell à partir du cDNA, le séquençage avec le système Sequel, la génération de séquences cycliques consensuelles (CCS) et la recherche d'isomères par analyse Iso-Seq. De plus, la technologie prend également en charge le séquençage multiplex et le séquençage de cellules uniques, ce qui lui confère des avantages uniques dans l'étude d'échantillons complexes et de types cellulaires rares.
La préparation des échantillons est cruciale car sa qualité impacte l'exactitude du séquençage ultérieur. Un ARN de haute qualité est essentiel ; la dégradation ou la pollution peuvent entraîner un échec du séquençage. Dans la préparation, il est nécessaire d'ajouter plusieurs queues A et d'utiliser un kit de déplétion d'ARNr en suivant les procédures standard.
La conception expérimentale doit être rationnelle, en tenant compte du type d'échantillon, de la profondeur de séquençage et de l'analyse cible. Pour la recherche sur les plantes, choisissez les tissus et les points temporels en fonction de l'expression génique. Incluez plusieurs stratégies pour une meilleure couverture des données et une précision accrue.
Les paramètres de séquençage tels que la concentration à bord et le temps doivent être optimisés en fonction des caractéristiques de l'échantillon et des exigences d'analyse. Utilisez des instruments et des réactifs de qualité en suivant les recommandations du fabricant pour améliorer la qualité des données.
L'analyse des données nécessite des outils spécialisés comme SMRT Link ou TAGET pour gérer des données isomériques complexes. Corrigez les éventuelles déviations et vérifiez les résultats avec d'autres technologies comme l'ARN-seq. Pendant l'expérience, surveillez en continu la qualité des échantillons et du séquençage. Vérifiez si les données répondent aux attentes après le séquençage et ajustez le schéma rapidement. Assurez-vous que toutes les données sont complètes après l'expérience.
Références