Séquençage homologue (Iso-Seq) est un séquençage en temps réel à molécule unique (SMRT) technologie développée par PacBio, qui peut générer des séquences de transcrits de longueur complète, évitant ainsi l'étape compliquée de reconstruction du transcriptome dans le séquençage transcriptomique traditionnel. En séquençant directement les régions non traduites 5' et 3' et les queues de polyadénylation de l'ADNc, cette technique peut capturer complètement les transcrits de longueur complète, y compris les isomères d'épissage, l'épissage alternatif, la polyadénylation alternative (APA), les événements de fusion génique et l'ARN non codant long (lncRNA).
Aperçu de l'analyse Iso-Seq
Le flux de travail de la technologie Iso-Seq comprend la préparation de cDNA à partir d'échantillons d'ARN, sa transformation en une bibliothèque adaptée au séquençage, puis le séquençage en utilisant la plateforme Sequel ou Seeq II. Après le séquençage, les données sont analysées à l'aide d'outils bioinformatiques spécialisés, tels que l'extraction de segments de lecture FLNC, la correction d'erreurs, l'alignement et l'identification d'homologie. Ces outils peuvent générer des séquences de transcrits de haute qualité et soutenir une variété d'analyses en aval, telles que l'annotation des gènes, l'analyse d'expression différentielle, la détection d'événements d'épissage et la prédiction de la fonction des gènes.
La technologie Iso-Seq a montré un large éventail de potentiel d'application dans la recherche sur les plantes, les animaux et les humains. Par exemple, dans le domaine des plantes, elle est utilisée pour révéler le mécanisme de régulation de l'expression génique, le réseau de régulation épigénétique et la complexité du transcriptome. Dans la recherche médicale, elle aide à identifier les mutations géniques liées aux maladies et les anomalies d'épissage. De plus, Iso-Seq peut également détecter des transcrits de faible abondance ou rares, ce qui est souvent difficile à réaliser avec l'ARN-seq.
Flux de travail d'analyse des données pour l'analyse des données Iso-Seq (Shannon et al., 2013)
Importance de maîtriser l'interprétation des données dans l'Iso-Seq
Il est très important pour les chercheurs de maîtriser la capacité d'analyse des données Iso-Seq pour les raisons suivantes :
Améliorer l'exactitude des données : Les données Iso-Seq d'interprétation contiennent généralement des informations biologiques riches, mais leur complexité exige des chercheurs une forte capacité d'analyse des données. Par exemple, l'exactitude de l'annotation des transcriptions peut être considérablement améliorée en traitant correctement les segments de lecture FLNC, en éliminant les erreurs et en les comparant. De plus, le choix d'outils d'analyse appropriés (tels que PRAPI, TAGET, etc.) pour différents problèmes de recherche peut encore améliorer la fiabilité des résultats.
Révéler la complexité du transcriptome : Iso-Seq peut détecter des isomères de transcrits et des événements d'épissage qui sont difficiles à trouver dans le RNA-seq traditionnel. Par exemple, il peut détecter des ARN non codants longs, des épissages alternatifs et des événements de fusion génique. Par conséquent, maîtriser le processus d'analyse des données est utile pour comprendre pleinement le mécanisme de régulation de l'expression génique et la diversité du transcriptome.
Soutenir l'analyse d'intégration multi-omiques : Les données Iso-Seq peuvent être combinées avec d'autres données omiques (telles que les omiques protéiques, l'épigénétique, etc.) pour fournir des informations biologiques plus complètes. Par exemple, en intégrant les données Iso-Seq avec les données d'expression génique, la fonction des gènes et la corrélation avec les maladies peuvent être prédites plus précisément.
Optimisation de la conception expérimentale : Une compréhension approfondie du processus d'analyse des données peut aider les chercheurs à optimiser la conception expérimentale. Par exemple, en ajustant la profondeur de séquençage et la stratégie de construction de la bibliothèque, la qualité des données peut être maximisée et le gaspillage de ressources réduit.
Promouvoir la coopération interdisciplinaire : L'analyse des données Iso-Seq implique une variété d'outils et de technologies en bioinformatique, ce qui nécessite que les chercheurs aient un bagage de connaissances interdisciplinaires. Par exemple, les chercheurs doivent comprendre les principes statistiques, les algorithmes de bioinformatique et les principes de conception expérimentale afin de mener à bien l'analyse des données et d'expliquer les résultats de manière efficace.
Services qui pourraient vous intéresser
Vous voulez en savoir plus sur les détails de l'Iso-seq ? Consultez ces articles.:
Le processus de génération de données Iso-seq est complexe et rigoureux. La première étape est la préparation de l'échantillon, qui nécessite l'extraction d'ARN total de haute qualité à partir de tissus, de cellules ou d'échantillons biologiques spécifiques, et l'intégrité ainsi que la pureté de l'ARN doivent être élevées, afin de ne pas affecter le séquençage ultérieur.
Préparation des échantillons
Extraction d'ARN et contrôle de qualité : L'extraction d'ARN utilise généralement des méthodes standard, telles que le kit d'extraction d'ARN Easy-Spin Plant ou le kit Qiagen RNeasy Mini, pour garantir l'intégrité et la pureté de l'ARN. L'intégrité de l'ARN (valeur RIN) nécessite généralement un minimum de 7,0. L'ARN extrait doit subir une évaluation de qualité, y compris des tests de concentration et d'intégrité, tels que l'analyse avec NanoDrop ou l'Analyseur de fragments Agilent. L'ARN total doit généralement être d'au moins 200 ng pour répondre aux besoins de l'amplification ultérieure.
Synthèse de cDNA et construction de bibliothèque : Le kit de synthèse de cDNA Clontech SMARTer PCR a été utilisé pour synthétiser le brin cDNA. Le kit permet la génération de cDNA de longueur complète à partir d'ARN total ou d'ARN polyA+, et la quantité minimale de départ est de 2 ng d'ARN total ou 1 ng d'ARN polyA+. La transcriptase inverse SMARTScribe synthétisera le brin complémentaire de cDNA à partir de l'extrémité polyA et ajoutera des nucléotides d'adénine supplémentaires lorsque l'ARNm atteindra l'extrémité 5', fournissant ainsi une séquence 3' universelle pour la synthèse du deuxième brin. Le deuxième brin de cDNA a été amplifié par la polymérase DNA KAPA HiFi. Dans le processus de construction de la bibliothèque, nous pouvons choisir la méthode sans sélection de taille ou avec sélection de taille.
Opération de séquençage
Flux de travail de séquençage PacBio : Après la préparation de la bibliothèque, la bibliothèque cDNA est transformée en un modèle SMRTbell adapté au séquençage en utilisant le kit de préparation de modèle PacBio SMRTbell (tel que le Template Prep Kit 2.0). La bibliothèque de modèles a été chargée dans la plateforme de séquençage PacBio Sequel II ou Sequel IIe à l'aide du kit chimique P6 ou P7 pour le séquençage. Le temps de séquençage est généralement de 6 heures, mais le temps spécifique dépend de la profondeur de couverture cible et de la complexité de l'échantillon. Les données générées lors du processus de séquençage comprennent la séquence de consensus cyclique (CCS) et la séquence de consensus acyclique (FLCC), où la CCS est utilisée pour générer des transcrits complets de haute qualité, tandis que la FLCC est utilisée pour détecter des séquences de faible qualité ou incomplètement amplifiées.
Format de sortie des données : Les données de séquençage PacBio sont généralement sorties au format BAM, incluant les données de lecture originales, les lectures valides filtrées et les informations d'annotation. Après le traitement des données, divers fichiers de sortie peuvent être générés, y compris :
Iso-seq analyse de données utilise des algorithmes et des outils spéciaux pour traiter les données de lecture longue et de séquence longue obtenues par séquençage, afin de réaliser la reconnaissance complète des transcrits, l'analyse du splicing alternatif, la détection des fusions géniques, la découverte de nouveaux transcrits et la quantification du niveau d'expression génique, permettant ainsi d'analyser de manière exhaustive et approfondie la complexité et la diversité du transcriptome.
Prétraitement et contrôle de qualité
Filtrage des données brutes : Avant l'analyse ultérieure, les données RNA-seq originales doivent d'abord être évaluées et filtrées. Cela inclut la suppression des segments de lecture de mauvaise qualité, des segments de lecture non classifiés et des séquences d'adaptateurs. Les outils couramment utilisés incluent FastQC, Trimmomatic, etc. Ces outils peuvent détecter la pollution, le taux d'erreur de base et les séquences surexprimées dans les échantillons. Plus précisément, FastQC est utilisé pour évaluer préliminairement la qualité des segments de lecture et générer des rapports de qualité pour aider les utilisateurs à comprendre les caractéristiques de lecture de chaque échantillon.
Correction d'erreurs et évaluation de la qualité : Pour des données de lecture longues de haute qualité, telles que les données provenant de la technologie Iso-Seq, une correction d'erreurs et une évaluation de la qualité supplémentaires sont nécessaires. Par exemple, les segments de lecture peuvent être élagués en utilisant l'outil HTSeq pour réduire le taux d'erreur et améliorer la précision des analyses ultérieures. De plus, la qualité du segment de lecture peut également être évaluée par des indicateurs tels que la valeur Q (q = log10(p × N)), où n est la longueur du segment de lecture.
Reconstruction du transcriptome et reconnaissance des isomères
Les outils et logiciels d'analyse Iso-Seq L'analyse des données Iso-Seq nécessite généralement des outils et des logiciels spéciaux.
Annotation et comparaison avec le génome de référence : Après la reconstruction du transcriptome, il est nécessaire de comparer le transcript reconstruit avec le génome de référence. Cette étape est généralement réalisée à l'aide d'outils de comparaison tels que SAMtools ou BWA. Après l'alignement, des outils tels que Trinity et HTSeq peuvent être utilisés pour analyser davantage les transcrits, y compris l'identification des isomères, l'estimation des niveaux d'expression et la détection des événements d'épissage. Pour l'identification des isomères, nous pouvons également utiliser des méthodes telles que l'analyse en deux étapes des isoformes (I2A) pour étudier la différence d'expression génique en comparant l'abondance des isomères de différents échantillons.
Pipeline d'analyse d'Iso-Sep (Kariuki et al., 2023)
Le processus d'analyse des données Iso-Seq comprend deux parties principales : le prétraitement et le contrôle de qualité, ainsi que la reconstruction du transcriptome et l'identification des isomères. Dans la phase de prétraitement, l'accent est mis sur le filtrage des données de faible qualité et la correction des erreurs ; dans la phase de reconstruction du transcriptome, il est nécessaire d'utiliser des outils et des logiciels spéciaux pour traiter les données de lecture longue et les comparer avec le génome de référence afin d'identifier les isomères. Ce processus garantit l'exactitude et la fiabilité de l'analyse des données et fournit une base solide pour les recherches ultérieures sur l'expression génique.
Les données Iso-seq peuvent analyser de manière complète et précise la structure des transcrits, et fournir des informations sur les transcrits complets avec une haute précision pour comprendre la fonction des gènes, les mécanismes régulateurs et les changements du transcriptome liés aux maladies.
Identification des événements d'épissage alternatif
Le splicing alternatif (AS) est un mécanisme de régulation post-transcriptionnelle important chez les eucaryotes, qui produit de nombreux isomères de protéines en épissant différentes combinaisons d'exons. La méthode pour identifier les événements de splicing alternatif comprend :
Vue de comparaison SpliceSeq des échantillons de différents patients (Michael et al., 2012)
Quantification des niveaux d'expression des transcrits
La quantification du niveau d'expression des transcrits est une étape importante pour comprendre la fonction et la régulation des gènes.
Annotation fonctionnelle et analyse des voies métaboliques
L'annotation fonctionnelle et l'analyse des voies des événements d'épissage alternatif sont utiles pour révéler leur signification biologique.
Visualisation des données Iso-Seq
La visualisation des données Iso-Seq est une étape clé pour montrer la complexité du transcriptome.
La conception et la visualisation globales de l'Iso-Seq (Gao et al., 2018)
Iso-seq peut séquencer directement le transcrit complet grâce à la plateforme de séquençage de molécules uniques PacBio sans interrompre l'ARN, ce qui permet d'identifier avec précision les informations structurelles des gènes telles que l'épissage alternatif, le site d'initiation de la transcription et la queue polyA, et de fournir des informations complètes et précises sur les transcrits complets pour la recherche en transcriptomique.
Analyse Iso-Seq réussie dans des recherches publiées
Étude sur le transcriptome des plantes : La technologie Iso-Seq a montré des avantages remarquables dans l'étude du transcriptome des plantes. Par exemple, grâce à la technologie PacBio SMRT, les chercheurs peuvent générer des séquences cDNA complètes, y compris les régions non traduites 5' et 3' et les queues de polyadénylation, évitant ainsi l'étape de reconstruction du groupe de transcription. Cela permet à Iso-Seq de détecter des informations telles que l'épissage alternatif, le site d'initiation de la transcription et le site de polyadénylation de manière plus précise, et fournit un outil important pour la caractérisation des réseaux de régulation épigénétiques.
Analyse du transcriptome de soja : Dans la recherche sur le soja, la technologie Iso-Seq a été utilisée pour analyser de manière exhaustive l'expression des gènes et des allèles. Il a été constaté que les données Iso-Seq couvraient plus de 80 % des sites de couverture de l'ARN-Seq, et des allèles à forte abondance que l'ARN-Seq ne pouvait pas identifier pouvaient être détectés. Cela montre qu'Iso-Seq a une sensibilité supérieure pour révéler la fonction des gènes et le mécanisme de régulation.
Résumé des données Iso-Seq (Liu et al., 2022)
L'étude sur la technologie Iso-Seq des lncRNA a également réalisé une avancée dans la découverte et l'annotation fonctionnelle des longs ARN non codants. Par exemple, dans la recherche sur le soja, un grand nombre de nouveaux lncRNA ont été détectés grâce à la technologie Iso-Seq, et leurs fonctions ont été révélées par une analyse bioinformatique.
Caractéristiques des lncRNA dans les tissus racinaires et nodulaires du soja (Liu et al., 2022)
Application dans la recherche sur le cancer : Dans la recherche sur le cancer, la technologie Iso-Seq est utilisée pour analyser le transcriptome complet des échantillons tumoraux. Par exemple, les recherches sur la lignée cellulaire COLO 205 montrent qu'Iso-Seq peut améliorer de manière significative la capacité de détection des mutations, des suppressions ponctuelles et des variations structurelles lorsqu'elle est combinée avec des données de lecture courte et longue. Cette technologie offre une nouvelle perspective pour la recherche en génomique du cancer.
Paysage des événements de commutation d'isoformes dans le cancer du foie primaire (Chen et al., 2024)
Comparaison inter-espèces : Dans l'étude du gorille égyptien (Macaca monophora), les chercheurs ont réussi à construire un assemblage du génome au niveau des chromosomes en combinant la technologie Illumina et la technologie Hi-C de PacBio, et ont analysé de manière exhaustive le transcriptome complet par la technologie Iso-Seq. Les résultats ont montré qu'avec l'augmentation des données de séquençage, le nombre d'isomères de transcrits a progressivement augmenté, améliorant ainsi la qualité de l'annotation des gènes.
Profils d'épissage différents dans des modèles murins à longueur de répétition courte ou pathogène (Hannah et al., 2024)
Problèmes courants et compétences en résolution
Annotation et classification des isomères : Il peut y avoir des redondances ou des erreurs de classification dans le processus d'annotation des isomères. Utilisez des outils tels que TAPSPI et SQANTI3 pour annoter et classer les isomères de manière efficace. Ces outils peuvent améliorer la précision des annotations et réduire les faux.
Complexité du processus d'analyse des données : Le processus d'analyse des données est compliqué et nécessite plusieurs étapes pour traiter les données originales. Utilisez des outils automatisés tels que nf Iso-seq ou TAGET, qui peuvent simplifier le processus d'analyse des données, réduire les erreurs humaines et améliorer l'efficacité.
Demande élevée en ressources informatiques : L'analyse des données Iso-Seq nécessite beaucoup de ressources informatiques. Adoptez un cadre de calcul distribué ou des services cloud (comme AWS ou Google Cloud) pour réduire la demande en ressources informatiques locales.
Détection d'événements d'épissage alternatif : La détection d'épissages alternatifs peut être limitée par des lectures courtes et des données longues. Combinez des données de lectures courtes et longues avec des données Iso-Seq pour une analyse conjointe afin d'améliorer la précision de la détection des événements d'épissage.
Faux positifs dans l'analyse des données : Des résultats faussement positifs peuvent survenir lors de l'analyse des données. Utilisez des normes de contrôle de qualité strictes et plusieurs méthodes de vérification (comme le RT-QCPR) pour garantir la fiabilité des résultats.
Iso-Seq est une méthode de séquençage de transcriptome en longueur complète basée sur la technologie de séquençage SMRT. Ses étapes clés comprennent la génération de segments de lecture originaux, la correction des erreurs et l'épissage, le raffinage et l'annotation des transcrits, la prédiction des isomères et le calcul de l'expression, ainsi que la visualisation et l'analyse des données.
Dans la recherche Iso-Seq, une interprétation précise des données est très importante pour les raisons suivantes :
Soutenir l'analyse complexe du transcriptome : Les données Iso-Seq peuvent être utilisées pour analyser en profondeur le réseau de régulation post-transcriptionnelle des gènes, tel que la sélectivité d'épissage, les événements de fusion de gènes et leurs effets sur la fonction des protéines. Une interprétation précise des données est utile pour révéler ces mécanismes biologiques complexes.
Promouvoir la recherche de comparaison inter-espèces : Iso-Seq fournit un outil important pour la comparaison inter-espèces en construisant une base de données de transcrits complets des plantes ou en intégrant d'autres données omiques. Par exemple, en utilisant les données Iso-Seq, nous pouvons analyser les différences d'expression génique entre différentes espèces et leurs relations évolutives.
Promouvoir la recherche clinique et le diagnostic des maladies : La technologie Iso-Seq a une valeur d'application importante dans la détection des variations génétiques liées aux maladies et l'analyse des différences d'expression génique. Une interprétation précise des données peut aider à identifier des marqueurs de maladies potentiels ou des cibles thérapeutiques.
Par conséquent, la recherche Iso-Seq nécessite non seulement des technologies de génération et de traitement de données de haute qualité, mais aussi des outils et des algorithmes bioinformatiques avancés pour garantir l'exactitude de l'interprétation des données, favorisant ainsi le développement de la recherche biologique et de l'application clinique.
Références: